Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (11): 26-32     https://doi.org/10.11925/infotech.1003-3513.2015.11.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
结合复杂网络的特征权重改进算法研究
杜坤, 刘怀亮, 郭路杰
西安电子科技大学经济与管理学院 西安 710126
Study on the Modified Method of Feature Weighting with Complex Networks
Du Kun, Liu Huailiang, Guo Lujie
School of Economics & Management, Xidian University, Xi'an 710126, China
全文: PDF (552 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]为了更准确计算特征权重, 以提高文本相似度计算的准确性。[方法]考虑特征项间的语义关联构造文本复杂网络并进行特征选择, 定义类别相关系数并结合特征选择结果, 提出一种改进的特征权重计算方法, 并进行中文文本分类实验。[结果]对比实验结果表明, 本文提出的特征权重改进算法较之TFIDF算法能够取得较好的分类效果。[局限]特征选择评估函数中的参数需要人工给定。[结论]相较于传统的TFIDF算法, 该算法能够更加准确地计算特征权重。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] This paper aims to calculate feature weights more accurately for the improvement of the accuracy of text similarity calculation. [Methods] The semantic association among features is considered to structure text complex networks and select features. An improved calculation method of feature weighting is proposed to carry out the Chinese text classification experiment with the definition of category correlation coefficient and the combination of the feature selection results. [Results] Experiment results show that the proposed Chinese text classification method works better in classification than the TFIDF algorithm. [Limitations] The parameters in the feature selection evaluation function need to be given. [Conclusions] Compared with the traditional TFIDF algorithm, the new algorithm is more accurate in the representation of feature weights.

收稿日期: 2015-05-26      出版日期: 2016-04-06
:  TP391  
  G356  
基金资助:

本文系国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”(项目编号:71373200)的研究成果之一。

通讯作者: 杜坤, ORCID: 0000-0002-3603-9498, E-mail: 18192514007@163.com。     E-mail: 18192514007@163.com
作者简介: 作者贡献声明:杜坤, 刘怀亮: 提出研究思路, 设计研究方案; 杜坤: 进行实验验证及实验分析; 杜坤, 郭路杰: 论文起草; 郭路杰: 论文最终版本修订。
引用本文:   
杜坤, 刘怀亮, 郭路杰. 结合复杂网络的特征权重改进算法研究[J]. 现代图书情报技术, 2015, 31(11): 26-32.
Du Kun, Liu Huailiang, Guo Lujie. Study on the Modified Method of Feature Weighting with Complex Networks. New Technology of Library and Information Service, 2015, 31(11): 26-32.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.11.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I11/26

[1] 台德艺, 王俊. 文本分类特征权重改进算法[J]. 计算机工程, 2010, 36(9): 197-199, 202. (Tai Deyi, Wang Jun. Improved Feature Weighting Algorithm for Text Categorization [J]. Computer Engineering, 2010, 36(9): 197-199, 202.)
[2] 苏丹, 周明全, 王学松, 等. 一种基于最少出现文档频的文本特征提取方法[J]. 计算机工程与应用, 2012, 48(10): 164-166, 178. (Su Dan, Zhou Mingquan, Wang Xuesong, et al. Method Based on Least Document Frequency for Text Feature Extraction [J]. Computer Engineering and Applications, 2012, 48(10): 164-166, 178.)
[3] 赵小华, 马建芬. 文本分类算法中词语权重计算方法的改进[J]. 电脑知识与技术, 2009, 5(36): 10626-10628. (Zhao Xiaohua, Ma Jianfen. Modify the Method of Feature's Weight in Text Classification [J]. Computer Knowledge and Technology, 2009, 5(36): 10626-10628.)
[4] 李原. 中文文本分类中分词和特征选择方法研究[D]. 长春: 吉林大学, 2011. (Li Yuan. Research on Word Segmenta­tion and Feature Selection of Chinese Text Classification [D]. Changchun: Jilin University, 2011.)
[5] Debole F, Sebastiani F. Supervised Term Weighting for Automated Text Categorization [C]. In: Proceedings of the 2003 ACM Symposium on Applied Computing, 2003: 784-788.
[6] 陆玉昌, 鲁明羽, 李凡, 等. 向量空间法中单词权重函数的分析和构造[J]. 计算机研究与发展, 2002, 39(10): 1205-1210. (Lu Yuchang, Lu Mingyu, Li Fan, et al. Analysis and Construction of Word Weighing Function in VSM [J]. Journal of Computer Research and Development, 2002, 39(10): 1205-1210.)
[7] Huang C, Tian Y H, Huang T J, et al. Semantic Scoring Based on Small-Word Phenomenon for Feature Selection in Text Mining [C]. In: Proceedings of the 2nd International Conference on Advance Data Mining and Application (ADMA'06). Heidelberg, Berlin: Springer-Verlag, 2006: 636-643.
[8] Liu G, Zhai Z W. Research on Keywords Extraction of Chinese Documents Based on TEXT-NET [C]. In: Proceedings of the 2011 International Conference on Electric Information and Control Engineering. 2011: 6074-6077.
[9] 赵辉, 刘怀亮, 范云杰. 复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 2012(9): 23-28. (Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection [J]. New Technology of Library and Information Service, 2012(9): 23-28.)
[10] Manning C D, Schutze H. Foundations of Statistical Natural Language Processing [M]. MIT Press, 1999: 111-114.
[11] 涂新辉, 张红春, 周琨峰, 等. 中文维基百科的结构化信息抽取及词语相关度计算方法[J]. 中文信息学报, 2012, 26(3): 109-115. (Tu Xinhui, Zhang Hongchun, Zhou Kunfeng, et al. Extracting Structured Information from Chinese Wikipedia and Measuring Relatedness Between Words [J]. Journal of Chinese Information Processing, 2012, 26(3): 109-115.)
[12] 王娟, 曹树金, 姜灵敏, 等. 基于中文维基百科的领域概念相关性研究[J]. 图书情报工作, 2014, 58(23): 136-142. (Wang Juan, Cao Shujin, Jiang Lingmin, et al. Research on Semantic Relatedness of Domain-specific Concepts Based on Chinese Wikipedia [J]. Library and Information Service, 2014, 58(23): 136-142.)
[13] Witten I H, Milne D N. An Effective, Low-cost Measure of Semantic Relatedness Obtained from Wikipedia Links [C]. In: Proceedings of AAAI Workshop on Wikipedia and Artificial Intelligence: An Evolving Synergy. AAAI Press, 2008: 25-30.
[14] Rada R, Mili H, Bicknell E, et al. Development and Application of a Metric on Semantic Nets [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 19(1): 17-30.
[15] Wu Z B, Palmer M. Verb Semantics and Lexical Selection [C]. In: Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 1994: 133-138.
[16] 郭雷, 许晓鸣. 复杂网络[M]. 上海: 上海科技教育出版社, 2006: 28-30. (Guo Lei, Xu Xiaoming. Complex Networks [M]. Shanghai: Shanghai Science and Technology Education Press, 2006: 28-30.)
[17] 赵鹏, 耿焕同, 蔡庆生, 等. 一种基于加权复杂网络特征的K-means聚类算法[J]. 计算机技术与发展, 2007, 17(9): 35-37. (Zhao Peng, Geng Huantong, Cai Qingsheng, et al. A Novel K-means Clustering Algorithm Based on Weighted Complex Networks Feature [J]. Computer Technology and Development, 2007, 17(9): 35-37.)
[18] 中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download. aspx. (Institute of Computing Technology, Chinese Academy of Sciences. ICTCLAS [EB/OL]. [2014-07-06]. http://ictclas. org/ictclas_download.aspx.)

[1] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[2] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[3] 李振宇, 李树青. 嵌入隐式相似群的深度协同过滤算法*[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[4] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 华斌, 吴诺, 贺欣. 基于知识融合的政务信息化项目多专家审批意见整合*[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[8] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
[9] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[10] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[11] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[13] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[14] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[15] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn