Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (12): 43-47     https://doi.org/10.11925/infotech.1003-3513.2008.12.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
最大词重降维算法与模拟退火算法相结合的文本聚类方法研究
陆国丽 王小华 王荣波
(杭州电子科技大学计算机应用技术研究所 杭州 310018)
Text Clustering Research on the Max Term Contribution Dimension Reduction and Simulated Annealing Algorithm
Lu Guoli  Wang Xiaohua  Wang Rongbo
(Computer Application Technology Laboratory of Hangzhou Dianzi University, Hangzhou 310018, China)
全文: PDF (558 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
陆国丽
王荣波
王小华
关键词 文本聚类最大词重特征提取模拟退火    
Abstract

This paper presents a new algorithm for text character extraction and dimension reduction based on the Max Term Contribution. Its main idea is computing the contribution of each term in the high dimension document-base and extracting the maximum contribution terms to construct a low dimension document-base from the high dimension document-base using the search algorithm. Then a modified K-means clustering method based on the Simulated Annealing (SA) is presented to cluster the low dimension document datum which is obtained by MTC. Finally, some experiments show that the new method can improve the cluster precision.

Key wordsText clustering    Max term contribution    Character extraction    Simulated annealing
收稿日期: 2008-09-02      出版日期: 2008-12-25
ZTFLH: 

TP391

 
通讯作者: 陆国丽     E-mail: lgl@zjnu.cn
作者简介: 陆国丽,王小华,王荣波
引用本文:   
陆国丽,王小华,王荣波. 最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J]. 现代图书情报技术, 2008, 24(12): 43-47.
Lu Guoli,Wang Xiaohua,Wang Rongbo. Text Clustering Research on the Max Term Contribution Dimension Reduction and Simulated Annealing Algorithm. New Technology of Library and Information Service, 2008, 24(12): 43-47.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.12.08      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I12/43

[1] 中国科学院计算机网络信息中心. 第21次中国互联网络发展状况统计报告[R],2008.
[2] 秦进,陆汝占. 文本分类中的特征提取[J].计算机应用, 2003,23(2):45-46.
[3] 伍建军,康耀红. 一种基于特征词聚类的文本分类方法[J]. 情报理论与实践,2007,30(1):109-111.
[4] Friedman JH.Turkey JW. A Projection Pursuit Algorithm for Exploratory Data Analysis [J]. IEEE Transactions on Computer, 1974, 23(9):881-890.
[5] Gao MT. A New Algorithm for Text Clustering Based on Projection Pursuit [C]. In:Proceedings of the 6th International Conference on Machine Learning and Cybernetics, HongKong, 2007:3401-3405.
[6] 周水庚,关佶红. 隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2): 239-243.
[7] Gonzaga L,Grivet M. A Simple and Fast Term Selection Procedure for Text Clustering [C]. In:Proceedings of the 7th International Conference on Intelligent Systems Design and Application,2007:777-781.
[8] 杨淑莹. 模式识别与智能计算—Matlab技术实现[M],北京:电子工业出版社,2008.
[9] 张蓉,彭 宏. 一种快速的模拟退火算法及其在数据聚类中的应用[J]. 计算机工程与应用,2001,37(15):85-87.
[10] 武兆慧, 张桂娟, 刘希玉. 基于模拟退火遗传算法的聚类分析[J]. 计算机应用研究,2005,22(12):24-26.

[1] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[2] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[3] 文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[4] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[5] 严娇,马静,房康. 基于融合共现距离的句法网络下文本语义相似度计算 *[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[6] 钟庆虹,乔晓东,张运良,翁梦娟. 基于LDA2Vec和残差网络的跨媒体融合方法研究 *[J]. 数据分析与知识发现, 2019, 3(10): 78-88.
[7] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[8] 张涛, 马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[9] 黄孝喜, 李晗雨, 王荣波, 王小华, 谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[10] 李伟卿, 王伟军. 基于大规模评论数据的产品特征词典构建方法研究*[J]. 数据分析与知识发现, 2018, 2(1): 41-50.
[11] 李昌兵, 庞崇鹏, 李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[12] 官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[13] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[14] 陈东沂,周子程,蒋盛益,王连喜,吴佳林. 面向企业微博的客户细分框架*[J]. 现代图书情报技术, 2016, 32(2): 43-51.
[15] 龚凯乐,成颖,孙建军. 基于参与者共现分析的博文聚类研究*[J]. 现代图书情报技术, 2016, 32(10): 50-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn