Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (7/8): 89-93     https://doi.org/10.11925/infotech.1003-3513.2013.07-08.13
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
共词分析中的词语贡献度特征选择研究
胡昌平, 陈果
武汉大学信息资源研究中心 武汉 430072
A New Feature Selection Method Based on Term Contribution in Co-word Analysis
Hu Changping, Chen Guo
Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China
全文: PDF (639 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 从数据降维的角度来看,传统共词分析中以高频词构建共词矩阵的方法有较大的改进空间。将共词分析与文本分类、聚类、检索等方法进行对比归一,引入词语贡献度作为新的特征词选择方法, 并给出算法描述。从聚类效果层面将新方法与传统方法进行对比,通过实证验证基于词语贡献度的特征选择方法对共词分析有改进作用。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
胡昌平
陈果
关键词 共词分析聚类词语贡献度特征选择数字图书馆    
Abstract:From the view of data dimension reduction, the method of constructing co-word matrix by high frequent words has a great improvement space. By comparing co-word analysis with traditional text processing including text categorization, text clustering and information retrieval, the authors introduce a new feature selection method based on term contribution and the algorithm description. Through experimental comparison, it is shown that the new method has obvious effect on improving the data quality and cluster result.
Key wordsCo-word analysis    Clustering    Term contribution    Feature selection    Digital library
收稿日期: 2013-05-08      出版日期: 2013-09-02
: 

TP391

 
基金资助:

本文系国家自然科学基金资助项目"数字图书馆社区的知识聚合与服务研究"(项目编号:71273197)的研究成果之一。

引用本文:   
胡昌平, 陈果. 共词分析中的词语贡献度特征选择研究[J]. 现代图书情报技术, 2013, 29(7/8): 89-93.
Hu Changping, Chen Guo. A New Feature Selection Method Based on Term Contribution in Co-word Analysis. New Technology of Library and Information Service, 2013, 29(7/8): 89-93.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.07-08.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I7/8/89
[1] 叶鹰,张力,赵星,等.用共关键词网络揭示领域知识结构的实验研究[J]. 情报学报,2012,31(12):1245-1251.(Ye Ying, Zhang Li, Zhao Xing, et al. An Experimental Study on Revealing Domain Knowledge Structure by Co-keyword Networks[J]. Journal of the China Society for Scientific and Technical Information, 2012,31(12):1245-1251.)
[2] 张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J]. 计算机应用研究,2012,29(7):2541-2543. (Zhang Yufang,Wan Binhou,Xiong Zhongyang. Research on Feature Dimension Reduction in Text Classification[J]. Application Research of Computers,2012,29(7): 2541-2543.)
[3] 杨小兵.聚类分析中若干关键技术的研究[D].杭州:浙江大学,2005.(Yang Xiaobing. Research of Key Techniques in Cluster Analysis[D].Hangzhou: Zhejiang University,2005.)
[4] 陈涛,谢阳群.文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6):690-695.(Chen Tao,Xie Yangqun. Literature Review of Feature Dimension Reduction in Text Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2005,24(6):690-695.)
[5] Dash M, Liu H. Feature Selection for Clustering[C].In: Proceedings of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Kyoto, Japan. 2000:110-121.
[6] 王博.文本分类中特征选择技术的研究[D].长沙:国防科学技术大学,2009.(Wang Bo. Related Technologies Research on Feature Selection for Text Categorization[D].Changsha:National University of Defense Technology,2009.)
[7] Liu T, Liu S P, Chen Z, et al. An Evaluation on Feature Selection for Text Clustering[C]. In: Proceedings of the 20th International Conference on Machine Learning (ICML'03). 2003:488-495.
[8] 龚静.中文文本聚类中特征选择算法的研究[D].湘潭:湘潭大学,2006.(Gong Jing. The Study on Feature Selection Algorithm in Chinese Text Clustering[D].Xiangtan: Xiangtan University,2006.)
[9] 刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J]. 计算机研究与发展,2005,42 (3):381-386.(Liu Tao, Wu Gongyi, Chen Zheng. An Effective Unsupervised Feature Selection Method for Text Clustering[J]. Journal of Computer Research and Development,2005,42(3):381-386.)
[10] TF-IDF[EB/OL].[2013-02-12].http://zh.wikipedia.org/wiki/TF-IDF.
[11] 钟伟金.共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析[J]. 图书情报工作,2011,55(6):114-118.(Zhong Weijin. Empirical Study on Effectiveness of the Co-word Cluster Analysis——Comparative Analysis on the Clustering Results of Subject Heedings and Keywords[J]. Library and Information Service,2011,55(6):114-118.)
[12] Wang Z Y, Li G, Li C Y,et al. Research on the Semantic-based Co-word Analysis[J].Scientometrics,2012,90(3):855-875.
[13] 苏新宁,夏立新.2000-2009年我国数字图书馆研究主题领域分析——基于CSSCI关键词统计数据[J]. 中国图书馆学报,2011,37(4):60-69.(Su Xinning, Xia Lixin. Topic Analysis of Digital Library Research from 2000 to 2009 in China: Based on the Statistical Data of Key Words Released by CSSCI[J]. Journal of Library Science in China, 2011,37(4):60-69.)
[14] Liu G Y, Hu J M, Wang H L. A Co-word Analysis of Digital Library Field in China[J]. Scientometrics,2012,91(1):203-217.
[1] 王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊. 基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法*[J]. 数据分析与知识发现, 2021, 5(8): 13-24.
[2] 王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[3] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[4] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[5] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[8] 于丰畅,程齐凯,陆伟. 基于几何对象聚类的学术文献图表定位研究[J]. 数据分析与知识发现, 2021, 5(1): 140-149.
[9] 邬金鸣,侯跃芳,崔雷. 基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究[J]. 数据分析与知识发现, 2020, 4(9): 133-144.
[10] 温萍梅,叶志炜,丁文健,刘颖,徐健. 命名实体消歧研究进展综述*[J]. 数据分析与知识发现, 2020, 4(9): 15-25.
[11] 席运江, 杜蝶蝶, 廖晓, 仉学红. 基于超网络的企业微博用户聚类研究及特征分析*[J]. 数据分析与知识发现, 2020, 4(8): 107-118.
[12] 杨旭,钱晓东. 基于改进的Vicsek模型的社会网络同步聚类算法*[J]. 数据分析与知识发现, 2020, 4(4): 119-128.
[13] 熊回香,李晓敏,李跃艳. 基于图书评论属性挖掘的群组推荐研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 214-222.
[14] 魏家泽,董诚,何彦青,刘志辉,彭柯芸. 基于均衡段落和分话题向量的新闻热点话题检测研究*[J]. 数据分析与知识发现, 2020, 4(10): 70-79.
[15] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn