Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (9): 88-92     https://doi.org/10.11925/infotech.1003-3513.2013.09.14
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
面向用户生成内容的短文本聚类算法研究
赵辉, 刘怀亮
西安电子科技大学经济与管理学院 西安 710071
Research on Short Text Clustering Algorithm for User Generated Content
Zhao Hui, Liu Huailiang
School of Economics & Management, Xidian University, Xi’an 710071, China
全文: PDF (560 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对用户生成内容中短文本特征语义描述能力弱和K-means算法对初始聚类中心选值的敏感性问题,通过维基百科概念、链接结构和类别体系信息对短文本进行特征扩展以补充其语义信息。进而以文本间语义关系为基础构建文本集加权复杂网络,利用节点综合特性来选取初始聚类中心,并结合K-means算法对网络节点进行社团划分以达到短文本聚类的目的。实验结果表明,该方法能够有效提高短文本聚类效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘怀亮
赵辉
关键词 短文本聚类特征扩展复杂网络K-means算法用户生成内容    
Abstract:To solve the problem of weak semantic description ability of short text feature in user generated content, and the traditional K-means algorithm for document clustering is sensitive to the initial clustering center, this paper proposes that the semantic features information of short text can be supplied by feature extension based on the concept, link structure and category system of Wikipedia. Then the weighted complex network of short text set is built by the semantic relation of texts, and text clustering is achieved by node partitioning community based on K-means algorithm whose initial clustering center is chosen according to the synthetic characteristics of network nodes. Results of experiment show that the algorithm proposed by this paper can improve the effect of short text clustering.
Key wordsShort text clustering    Feature extension    Complex network    K-means algorithm    User enerated content
收稿日期: 2013-07-02      出版日期: 2013-09-27
:  G350  
引用本文:   
赵辉, 刘怀亮. 面向用户生成内容的短文本聚类算法研究[J]. 现代图书情报技术, 2013, 29(9): 88-92.
Zhao Hui, Liu Huailiang. Research on Short Text Clustering Algorithm for User Generated Content. New Technology of Library and Information Service, 2013, 29(9): 88-92.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.09.14      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I9/88
[1] 赵宇翔, 范哲, 朱庆华. 用户生成内容 (UGC) 概念解析及研究进展[J]. 中国图书馆学报, 2012,38(5): 68-81. (Zhao Yuxiang, Fan Zhe, Zhu Qinghua. Conceptualization and Research Progress on User-Generated Content [J]. Journal of Library Science in China, 2012,38(5): 68-81.)
[2] 柴春梅. 互联网短文本信息分类关键技术研究[D]. 上海: 上海交通大学, 2009. (Chai Chunmei. The Key Technology Research on Internet Short Text Information Classification[D]. Shanghai: Shanghai Jiaotong University, 2009.)
[3] MacQueen J B. Some Methods for Classification and Analysis of Multivariate Observations[C]. In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967: 281-297.
[4] 行小帅, 潘进, 焦李成. 基于免疫规划的 K-means 聚类算法[J]. 计算机学报, 2003, 26(5): 605-610. (Xing Xiaoshuai, Pan Jin, Jiao Licheng. A Novel K-means Clustering Based on the Immune Programming Algorithm [J]. Chinese Journal of Computers, 2003, 26(5): 605-610.)
[5] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学, 2009, 36(3): 142-145. (Ning Yahui, Fan Xinghua, Wu Yu. Short Text Classification Based on Domain Word Ontology[J]. Computer Science, 2009,36(3): 142-145.)
[6] 王盛, 樊兴华, 陈现麟. 利用上下位关系的中文短文本分类[J]. 计算机应用, 2010,30(3): 603-611.(Wang Sheng, Fan Xinghua, Chen Xianlin. Chinese Short Text Classification Based on Hyponymy Relation[J]. Journal of Computer Application, 2010,30(3): 603-611.)
[7] 范云杰, 刘怀亮. 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012(3): 47-52. (Fan Yunjie, Liu Huailiang. Research on Chinese Short Text Classification Based on Wikipedia[J]. New Technology of Library and Information Service, 2012(3): 47-52.)
[8] 白秋产, 金春霞. 概念属性扩展的短文本聚类算法[J]. 长春师范学院学报: 自然科学版, 2011,30(5): 29-33. (Bai Qiuchan, Jin Chunxia. Short Text Clustering Algorithm Based on Concept Feature Expansion[J]. Journal of Changchun Normal University: Natural Science, 2011, 30(5): 29-33.)
[9] Pan Y, Chen A H, Jiang L L. Improved K-means Clustering Method Based on Complex Network for Rolling Bearing Fault Diagnosis[J]. Applied Mechanics and Materials, 2013, 273: 250-254.
[10] 赵鹏, 耿焕同, 蔡庆生, 等. 一种基于加权复杂网络特征的 K-means 聚类算法[J]. 计算机技术与发展, 2007, 17(9): 35-37. (Zhao Peng, Geng Huantong, Cai Qingsheng, et al. A Novel K-means Clustering Algorithm Based on Weighted Complex Networks Feature[J]. Computer Technology and Development, 2007, 17(9): 35-37.)
[11] 董俊, 任家东, 卢海涛. 一种基于复杂网络属性值的 K-means 聚类算法[J]. 燕山大学学报, 2012, 36(4): 343-347. (Dong Jun, Ren Jiadong, Lu Haitao. A K-means Cluster Algorithm Based on Complex Networks Attribute Value [J]. Journal of Yanshan University, 2012, 36(4): 343-347.)
[12] 赵辉, 刘怀亮, 范云杰. 复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 2012(9): 23-28. (Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection[J]. New Technology of Library and Information Service, 2012(9): 23-28.)
[13] Milne D, Witten I H. An Effective, Low-cost Measure of Semantic Relatedness Obtained from Wikipedia Links[C]. In: Proceedings of the 1st AAAI Workshop on Wikipedia and Artificial Intelligence. 2008: 25-30.
[14] Allen J. Natural Language Understanding[M]. The Benjamin Cummings Publishing Company, 1991.
[15] Salton G, McGill M J. Introduction to Modern Information Retrieval[M]. New York, NY, USA: McGraw-Hill, 1983.
[16] Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002,34(1):1-47.
[1] 陈文杰,文奕,杨宁. 基于节点向量表示的模糊重叠社区划分算法*[J]. 数据分析与知识发现, 2021, 5(5): 41-50.
[2] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[3] 李文政,顾益军,闫红丽. 基于网络贝叶斯信息准则算法的社区数量预测研究*[J]. 数据分析与知识发现, 2020, 4(4): 72-82.
[4] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[5] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[6] 李想,钱晓东. 商品在线评价对消费趋同影响研究*[J]. 数据分析与知识发现, 2019, 3(3): 102-111.
[7] 严娇,马静,房康. 基于融合共现距离的句法网络下文本语义相似度计算 *[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[8] 蒋武轩,熊回香,叶佳鑫,安宁. 网络社交平台中社群标签动态生成研究 *[J]. 数据分析与知识发现, 2019, 3(10): 98-109.
[9] 钱晓东, 李敏. 基于复杂网络重叠社区的电子商务用户复合类型识别*[J]. 数据分析与知识发现, 2018, 2(6): 79-91.
[10] 王婷婷, 王凯平, 戚桂杰. 基于情感分析的开放式创新平台创意采纳研究: 以Salesforce为例*[J]. 数据分析与知识发现, 2018, 2(4): 38-47.
[11] 蒋翠清, 宋凯伦, 丁勇, 刘尧. 基于用户生成内容的潜在客户识别方法*[J]. 数据分析与知识发现, 2018, 2(3): 1-8.
[12] 刘洪伟, 高鸿铭, 陈丽, 詹明君, 梁周扬. 基于用户浏览行为的兴趣识别管理模型*[J]. 数据分析与知识发现, 2018, 2(2): 74-85.
[13] 陈云伟, 张瑞红. 用于情报挖掘的典型网络社团划分算法比较研究*[J]. 数据分析与知识发现, 2018, 2(10): 84-94.
[14] 刘冰瑶, 马静, 李晓峰. 一种“特征降维”文本复杂网络的话题表示模型*[J]. 数据分析与知识发现, 2017, 1(11): 53-61.
[15] 岳子静, 章成志, 周清清. 基于UGC的中国各地区用户饮食偏好挖掘研究*[J]. 数据分析与知识发现, 2017, 1(11): 84-93.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn