Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (7/8): 89-93    DOI: 10.11925/infotech.1003-3513.2013.07-08.13
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
共词分析中的词语贡献度特征选择研究
胡昌平, 陈果
武汉大学信息资源研究中心 武汉 430072
A New Feature Selection Method Based on Term Contribution in Co-word Analysis
Hu Changping, Chen Guo
Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China
全文: PDF(639 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 从数据降维的角度来看,传统共词分析中以高频词构建共词矩阵的方法有较大的改进空间。将共词分析与文本分类、聚类、检索等方法进行对比归一,引入词语贡献度作为新的特征词选择方法, 并给出算法描述。从聚类效果层面将新方法与传统方法进行对比,通过实证验证基于词语贡献度的特征选择方法对共词分析有改进作用。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
胡昌平
陈果
关键词 共词分析聚类词语贡献度特征选择数字图书馆    
Abstract:From the view of data dimension reduction, the method of constructing co-word matrix by high frequent words has a great improvement space. By comparing co-word analysis with traditional text processing including text categorization, text clustering and information retrieval, the authors introduce a new feature selection method based on term contribution and the algorithm description. Through experimental comparison, it is shown that the new method has obvious effect on improving the data quality and cluster result.
Key wordsCo-word analysis    Clustering    Term contribution    Feature selection    Digital library
收稿日期: 2013-05-08     
: 

TP391

 
基金资助:

本文系国家自然科学基金资助项目"数字图书馆社区的知识聚合与服务研究"(项目编号:71273197)的研究成果之一。

引用本文:   
胡昌平, 陈果. 共词分析中的词语贡献度特征选择研究[J]. 现代图书情报技术, 2013, 29(7/8): 89-93.
Hu Changping, Chen Guo. A New Feature Selection Method Based on Term Contribution in Co-word Analysis. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2013.07-08.13.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.07-08.13
[1] 叶鹰,张力,赵星,等.用共关键词网络揭示领域知识结构的实验研究[J]. 情报学报,2012,31(12):1245-1251.(Ye Ying, Zhang Li, Zhao Xing, et al. An Experimental Study on Revealing Domain Knowledge Structure by Co-keyword Networks[J]. Journal of the China Society for Scientific and Technical Information, 2012,31(12):1245-1251.)
[2] 张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J]. 计算机应用研究,2012,29(7):2541-2543. (Zhang Yufang,Wan Binhou,Xiong Zhongyang. Research on Feature Dimension Reduction in Text Classification[J]. Application Research of Computers,2012,29(7): 2541-2543.)
[3] 杨小兵.聚类分析中若干关键技术的研究[D].杭州:浙江大学,2005.(Yang Xiaobing. Research of Key Techniques in Cluster Analysis[D].Hangzhou: Zhejiang University,2005.)
[4] 陈涛,谢阳群.文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6):690-695.(Chen Tao,Xie Yangqun. Literature Review of Feature Dimension Reduction in Text Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2005,24(6):690-695.)
[5] Dash M, Liu H. Feature Selection for Clustering[C].In: Proceedings of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Kyoto, Japan. 2000:110-121.
[6] 王博.文本分类中特征选择技术的研究[D].长沙:国防科学技术大学,2009.(Wang Bo. Related Technologies Research on Feature Selection for Text Categorization[D].Changsha:National University of Defense Technology,2009.)
[7] Liu T, Liu S P, Chen Z, et al. An Evaluation on Feature Selection for Text Clustering[C]. In: Proceedings of the 20th International Conference on Machine Learning (ICML'03). 2003:488-495.
[8] 龚静.中文文本聚类中特征选择算法的研究[D].湘潭:湘潭大学,2006.(Gong Jing. The Study on Feature Selection Algorithm in Chinese Text Clustering[D].Xiangtan: Xiangtan University,2006.)
[9] 刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J]. 计算机研究与发展,2005,42 (3):381-386.(Liu Tao, Wu Gongyi, Chen Zheng. An Effective Unsupervised Feature Selection Method for Text Clustering[J]. Journal of Computer Research and Development,2005,42(3):381-386.)
[10] TF-IDF[EB/OL].[2013-02-12].http://zh.wikipedia.org/wiki/TF-IDF.
[11] 钟伟金.共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析[J]. 图书情报工作,2011,55(6):114-118.(Zhong Weijin. Empirical Study on Effectiveness of the Co-word Cluster Analysis——Comparative Analysis on the Clustering Results of Subject Heedings and Keywords[J]. Library and Information Service,2011,55(6):114-118.)
[12] Wang Z Y, Li G, Li C Y,et al. Research on the Semantic-based Co-word Analysis[J].Scientometrics,2012,90(3):855-875.
[13] 苏新宁,夏立新.2000-2009年我国数字图书馆研究主题领域分析——基于CSSCI关键词统计数据[J]. 中国图书馆学报,2011,37(4):60-69.(Su Xinning, Xia Lixin. Topic Analysis of Digital Library Research from 2000 to 2009 in China: Based on the Statistical Data of Key Words Released by CSSCI[J]. Journal of Library Science in China, 2011,37(4):60-69.)
[14] Liu G Y, Hu J M, Wang H L. A Co-word Analysis of Digital Library Field in China[J]. Scientometrics,2012,91(1):203-217.
[1] 李柯,佐々木勇和. 基于多维小波聚类的空间文本数据情感分布分析[J]. 数据分析与知识发现, 2019, 3(7): 14-22.
[2] 程齐凯,王佳敏,陆伟. 基于引用共词网络的领域基础词汇发现研究*[J]. 数据分析与知识发现, 2019, 3(6): 57-65.
[3] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[4] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[5] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[6] 吴江,赵颖慧,高嘉慧. 医疗舆情事件的微博意见领袖识别与分析研究*[J]. 数据分析与知识发现, 2019, 3(4): 53-62.
[7] 肖连杰,郜梦蕊,苏新宁. 一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法*[J]. 数据分析与知识发现, 2019, 3(4): 90-96.
[8] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[9] 叶佳鑫,熊回香. 基于标签的跨领域资源个性化推荐研究*[J]. 数据分析与知识发现, 2019, 3(2): 21-32.
[10] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[11] 张涛,马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[12] 李湘东,高凡,李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[13] 牟冬梅,金姗,琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[14] 王秀芳,盛姝,路燕. 一种基于话题聚类及情感强度的微博舆情分析模型*[J]. 数据分析与知识发现, 2018, 2(6): 37-47.
[15] 温廷新,李洋子,孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn