Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (12): 73-79     https://doi.org/10.11925/infotech.1003-3513.2008.12.13
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
一种基于改进K-means的文档聚类算法的实现研究
岑咏华1,2  王晓蓉2  吉雍慧1
1(南京大学信息管理系 南京 210093)
2(南京理工大学经济管理学院 南京 210094)
Algorithm and Experiment Research of Textual Document Clustering Based on Improved K-means
Cen Yonghua 1,2  Wang XiaorongJi Yonghui 1
1(Department of Information Management,Nanjing University,Nanjing 210093,China)
2(Department of Information Management,Nanjing University of Science & Technology,Nanjing 210094,China)
全文: PDF (602 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
岑咏华
吉雍慧
王晓蓉
关键词 文档聚类K-means    
Abstract

After a concise introduction of conotation,functions and general processs of textual document clustering, this paper expotiates the basic mechanism of a kind of improved K-means clustering based on initial centroids selection through minimum-maximum principle, designs its algorithm, implements the clustering system, and conducts several experiments taking 300 academic articles and relative characteristic words for instances, which prove the good performance of the algorithm proposed.

Key wordsTextual document clustering    K-means
收稿日期: 2008-08-18      出版日期: 2008-12-25
: 

TP391

 
通讯作者: 岑咏华     E-mail: yhcen@163.com
作者简介: 岑咏华,王晓蓉,吉雍慧
引用本文:   
岑咏华,王晓蓉,吉雍慧. 一种基于改进K-means的文档聚类算法的实现研究[J]. 现代图书情报技术, 2008, 24(12): 73-79.
Cen Yonghua,Wang Xiaorong,Ji Yonghui. Algorithm and Experiment Research of Textual Document Clustering Based on Improved K-means. New Technology of Library and Information Service, 2008, 24(12): 73-79.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.12.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I12/73

[1] 刘远超,王晓龙,徐志明,等.文档聚类综述[J].中文信息学报,2006(3):55-62.
[2] 刘远超,王晓龙,刘秉权.一种改进的K-means文档聚类初值选择算法[J]. 高技术通讯,2006 (1):11-15.
[3] 吉雍慧. 数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75.
[4] Hearst M A. Texttiling: Segmenting Text into Multi-paragraph Subtopic Passages[J]. Computational  Linguistics,1997,23(1):33-64.

[1] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[2] 刘洪伟, 高鸿铭, 陈丽, 詹明君, 梁周扬. 基于用户浏览行为的兴趣识别管理模型*[J]. 数据分析与知识发现, 2018, 2(2): 74-85.
[3] 贾晓婷, 王名扬, 曹宇. 结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究*[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[4] 刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估*[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[5] 王雪颖, 张紫玄, 王昊, 邓三鸿. 中国农产品品牌评价研究的内容解析*[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[6] 官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[7] 方小飞, 黄孝喜, 王荣波, 谌志群, 王小华. 基于LDA模型的移动投诉文本热点话题识别*[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
[8] 刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波. 基于大数据岗位需求的文本聚类研究*[J]. 数据分析与知识发现, 2017, 1(12): 32-40.
[9] 钮亮. 共主题网络方法及应用*[J]. 现代图书情报技术, 2016, 32(7-8): 137-146.
[10] 杨海霞,高宝俊,孙含林. 基于LDA挖掘计算机科学文献的研究主题[J]. 现代图书情报技术, 2016, 32(11): 20-26.
[11] 陈挺, 韩涛, 李泽霞, 李国鹏, 王小梅. 科研项目布局差异对比方法研究——以NSF和EUFP项目为例[J]. 现代图书情报技术, 2015, 31(7-8): 89-96.
[12] 任育伟, 吕学强, 李卓, 徐丽萍. 搜索日志中命名实体识别[J]. 现代图书情报技术, 2015, 31(6): 49-56.
[13] 肖天久, 刘颖. 《红楼梦》词和N元文法分析[J]. 现代图书情报技术, 2015, 31(4): 50-57.
[14] 张文君, 王军, 徐山川. 电商用户需求状态的聚类分析——以淘宝网女装为例[J]. 现代图书情报技术, 2015, 31(3): 67-74.
[15] 赵辉, 刘怀亮. 面向用户生成内容的短文本聚类算法研究[J]. 现代图书情报技术, 2013, 29(9): 88-92.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn