改进的信息增益特征选择方法在文本聚类中的应用*

doi:10.11925/infotech.1003-3513.2004.12.02

现代图书情报技术

2004, Vol. 20

Issue (12): 7-9 https://doi.org/10.11925/infotech.1003-3513.2004.12.02

工作交流

本期目录 | 过刊浏览 | 高级检索

改进的信息增益特征选择方法在文本聚类中的应用*

陈涛¹ 宋妍² 谢阳群¹

¹(宁波大学管理科学与工程系浙江 315211)
²(南京大学工商管理系江苏 210093)

Application of Improved Information Gain Feature Selection Methodto Text Clustering

Chen Tao¹Song Yan²Xie Yangqun¹

¹(Department of Management Science and Engineering, Ningbo, Zhejiang 315211,China)
²(Department of Business Administration,Nanjing,Jiangsu 210093,China)

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

利用改进的信息增益特征选择的方法，对文本进行了有效的自动聚类。从语料库中抽取了250篇文本，利用向量空间模型和信息增益特征降维方法，构造文本特征向量，并最终利用C-均值方法聚类，聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章

关键词 ：信息增益, 特征选择, 聚类

Abstract：

This paper applies the improved information gain method to the text clustering. Retrieving 250 from the corpus, according to Vector Space Model and the information gain feature selection method,construct the text feature vector;use C-means to automatic clustering, the precision、recall and F-measure are 0.82、0.88、0.83.

Key words： Information gain Feature selection Clustering

收稿日期: 2004-07-07 出版日期: 2004-12-25

ZTFLH:	TP181

	G352

基金资助:

*本文为国家社会科学基金项目部分研究成果(项目编号：00BTQ015)，浙江省教育厅高校科研项目，编号为20040997。

通讯作者: 谢阳群 E-mail: xieyangqun1980@yahoo.com.cn

作者简介: 陈涛,宋妍,谢阳群

引用本文:

陈涛,宋妍,谢阳群. 改进的信息增益特征选择方法在文本聚类中的应用*[J]. 现代图书情报技术, 2004, 20(12): 7-9.
Chen Tao,Song Yan,Xie Yangqun. Application of Improved Information Gain Feature Selection Methodto Text Clustering. New Technology of Library and Information Service, 2004, 20(12): 7-9.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2004.12.02 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2004/V20/I12/7

1 Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys. 2002, 34(1):1-47
2 Tom Mitchell. Machine learning. McGraw Hill, New York. 1996
3 秦进，陈笑蓉等.文本分类中的特征抽取.计算机应用，2003，23（2）：45-46
4 刁倩, 王永成, 张惠惠等. 文本自动分类中的词权重与分类算法. 中文信息学报，2000, 14(3):25-29
5 李雪青，张冬荣.一种基于向量空间模型的文本分类方法.计算机工程，2003，29（17）：90-92
6 代六玲，黄河燕，陈肇雄.中文文本分类特征抽取方法的比较研究。中文信息学报，2004，18（1）：26-32

[1]	王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊. 基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法^*[J]. 数据分析与知识发现, 2021, 5(8): 13-24.
[2]	王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究^*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[3]	卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[4]	梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 ^*[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[5]	张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 ^*[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[6]	丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型^*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7]	杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略^*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[8]	于丰畅,程齐凯,陆伟. 基于几何对象聚类的学术文献图表定位研究[J]. 数据分析与知识发现, 2021, 5(1): 140-149.
[9]	邬金鸣,侯跃芳,崔雷. 基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究[J]. 数据分析与知识发现, 2020, 4(9): 133-144.
[10]	温萍梅,叶志炜,丁文健,刘颖,徐健. 命名实体消歧研究进展综述^*[J]. 数据分析与知识发现, 2020, 4(9): 15-25.
[11]	席运江, 杜蝶蝶, 廖晓, 仉学红. 基于超网络的企业微博用户聚类研究及特征分析*[J]. 数据分析与知识发现, 2020, 4(8): 107-118.
[12]	杨旭,钱晓东. 基于改进的Vicsek模型的社会网络同步聚类算法*[J]. 数据分析与知识发现, 2020, 4(4): 119-128.
[13]	熊回香,李晓敏,李跃艳. 基于图书评论属性挖掘的群组推荐研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 214-222.
[14]	王根生,潘方正. 融合加权异构信息网络的矩阵分解推荐算法^*[J]. 数据分析与知识发现, 2020, 4(12): 76-84.
[15]	魏家泽,董诚,何彦青,刘志辉,彭柯芸. 基于均衡段落和分话题向量的新闻热点话题检测研究^*[J]. 数据分析与知识发现, 2020, 4(10): 70-79.

Viewed

Full text

Abstract

Cited

Shared

Discussed