Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (11): 38-44     https://doi.org/10.11925/infotech.1003-3513.2014.11.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
一种基于复杂网络的中文文本表示算法
杨志墨, 刘怀亮, 赵辉
西安电子科技大学经济与管理学院 西安 710126
An Algorithm of Chinese Text Representation Based on Complex Network
Yang Zhimo, Liu Huailiang, Zhao Hui
School of Economics & Management, Xidian University, Xi'an 710126, China
全文: PDF (501 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 为解决基于向量空间文本表示模型中语义信息缺失问题, 提出一种基于复杂网络的中文文本表示算法.[方法] 利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算, 然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络.[结果] 实验结果表明, 该文本表示方法可以提高文本相似度计算结果, 改善文本分类效果.[局限] 文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究.[结论] 该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息, 且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确.

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘怀亮
杨志墨
赵辉
关键词 文本表示复杂网络维基百科词语相关度文本相似度    
Abstract

[Objective] To solve the problem of the semantic deficiency in text representation based on Vector Space Model, this paper proposes an algorithm of Chinese text representation based on complex network. [Methods] Word relevance is calculated based on the concept pages, link structure and category system which are extracted from Wikipedia. Then, it represents the feature words of texts as nodes, and puts the semantic relevance relation between words as the edges, and uses the word relevance as edge weight of weighted complex network. [Results] Results of experiments show that the proposed text representation method can improve the calculation of text similarity and improve the performance of text categorization. [Limitations] The selection rules of co-occurred window and span in this paper draw lessons from the existing researches. [Conclusions] This text representation method can better keep the structure information and the correlation information between words. Besides, the computation method of word relevance based on Wikipedia makes semantic information represented by the text network more accurate.

Key wordsText representation    Complex network    Wikipedia    Word relevance    Text similarity
收稿日期: 2014-04-06      出版日期: 2014-12-18
:  G350  
基金资助:

本文系国家自然科学基金项目"基于复杂网络的中文文本语义相似度研究"(项目编号: 71373200)的研究成果之一.

通讯作者: 杨志墨 E-mail: YZM_cat@163.com     E-mail: YZM_cat@163.com
作者简介: 作者贡献声明: 杨志墨: 提出论文的架构, 设计研究思路; 杨志墨, 赵辉: 采集实验语料, 进行分类实验; 杨志墨, 刘怀亮: 论文起草和最终版本修订.
引用本文:   
杨志墨, 刘怀亮, 赵辉. 一种基于复杂网络的中文文本表示算法[J]. 现代图书情报技术, 2014, 30(11): 38-44.
Yang Zhimo, Liu Huailiang, Zhao Hui. An Algorithm of Chinese Text Representation Based on Complex Network. New Technology of Library and Information Service, 2014, 30(11): 38-44.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.11.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2014/V30/I11/38

[1] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[2] 谢凤宏, 张大为, 黄丹, 等. 基于加权复杂网络的文本关键词提取[J]. 系统科学与数学, 2010, 30(11): 1592-1596. (Xie Fenghong, Zhang Dawei, Huang Dan, et al. Keywords Extraction Based on Weighted Complex Network [J]. Journal of Systems Science and Mathematical Sciences, 2010, 30(11): 1592-1596.)
[3] 韩艳. 基于统计的中文文本关键短语自动抽取方法研究[D]. 苏州: 苏州大学, 2009. (Han Yan. Research on Statistic- based Automatic Keypharse Extraction from Chinese Texts [D]. Suzhou: Soochow University, 2009.)
[4] Grabska-Gradzinska I, Kulig A, Kwapien J, et al. Complex Network Analysis of Literary and Scientific Texts [J]. International Journal of Modern Physics C, 2012, 23(7). DOI: 10.1142/S0129183112500519.
[5] Liu J, Wang J. Keyword Extraction Using Language Network [C]. In: Proceedings of International Conference on Natural Language Processing and Knowledge Engineering (NLP- KE'07), Beijing, China. IEEE, 2007: 129-134.
[6] 李纲, 毛进. 文本图表示模型及其在文本挖掘中的应用[J]. 情报学报, 2013, 32(12): 1257-1264. (Li Gang, Mao Jin. A Review on Text Graph Representation and Its Application in Text Mining [J]. Journal of the China Society for Scientific and Technical Information, 2013, 32(12): 1257-1264.)
[7] Litvak M, Last M. Graph-based Keyword Extraction for Single-document Summarization [C]. In: Proceedings of the Workshop on Multi-source Multilingual Information Extrac­tion and Summarization (MMIES'08). Stroudsburg: Associa­tion for Computational Linguistics, 2008: 17-24.
[8] 赵辉, 刘怀亮, 范云杰. 复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 2012(9): 23-28. (Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection [J]. New Technology of Library and Information Service, 2012(9): 23-28.)
[9] 赵辉, 刘怀亮, 张倩.一种基于复杂网络的中文文本分类算法[J]. 情报学报, 2012, 31(11): 1179-1186. (Zhao Hui, Liu Huailiang, Zhang Qian. A Chinese Text Classification Algorithm Based on Complex Network [J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(11): 1179-1186.)
[10] 钟茂生, 刘慧, 刘磊. 词汇间语义相关关系量化计算方法[J]. 中文信息学报, 2009, 23(2): 115-122. (Zhong Maosheng, Liu Hui, Liu Lei. Method of Semantic Relevance Relation Measurement between Words [J]. Journal of Chinese Information Processing, 2009, 23(2): 115-122.)
[11] Pestman W R. Mathematical Statistics [M]. Walter de Gruyter, 1998: 198-199.
[12] Van der Lubbe J C A. Information Theory [M]. London: Cambridge University Press, 2001: 16-21.
[13] Manning C D, Schutze H. Foundations of Statistical Natural Language Processing [M]. Cambridge: MIT Press, 1999: 111-114.
[14] 涂新辉, 张红春, 周琨峰, 等. 中文维基百科的结构化信息抽取及词语相关度计算方法[J]. 中文信息学报, 2012, 26(3): 109-115. (Tu Xinhui, Zhang Hongchun, Zhou Kunfeng, et al. Extracting Structured Information from Chinese Wikipedia and Measuring Relatedness between Words [J]. Journal of Chinese Information Processing, 2012, 26(3): 109-115.)
[15] Milne D, Witten I H. An Effective, Low-cost Measure of Semantic Relatedness Obtained from Wikipedia Links [C]. In: Proceedings of the 23rd Association for the Advancement of Artificial Intelligence. 2008: 25-30.
[16] Cancho R F I, Sole R V. The Small World of Human Language[J]. Proceedings of the Royal Society of London: Series B-Biological Sciences, 2001, 268 (1482): 2261-2265. DOI: 10.1098/rspb.2001.1800.
[17] 刘知远, 孙茂松. 汉语词同现网络的小世界效应和无标度特性[J]. 中文信息学报, 2007, 21(6): 52-58. (Liu Zhiyuan, Sun Maosong. Chinese Word Co-occurrence Network: Its Small World Effect and Scale-free Property [J]. Journal of Chinese Information Processing, 2007, 21(6): 52-58.)
[18] 吴江宁, 刘巧凤. 基于图结构的中文文本表示方法研究[J]. 情报学报, 2010, 29(4): 618-624. (Wu Jiangning, Liu Qiaofeng. Research on Graph Structure Based Method for Chinese Text Representation [J]. Journal of the China Society for Scientific and Technical Information, 2010, 29(4): 618-624.)
[19] 赵鹏, 耿焕同, 蔡庆生, 等. 一种基于加权复杂网络特征的 K-means 聚类算法[J]. 计算机技术与发展, 2007, 17(9): 35-37, 40. (Zhao Peng, Geng Huantong, Cai Qingsheng, et al. A Novel K-means Clustering Algorithm Based on Weighted Complex Networks Feature[J]. Computer Technology and Development, 2007, 17(9): 35-37, 40.)
[20] Van Rijsbergen C J. Information Retrieval [M]. London: Butterworths, 1979.
[21] Cover T, Hart P. Nearest Neighbor Pattern Classification [J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27.

[1] 陈文杰,文奕,杨宁. 基于节点向量表示的模糊重叠社区划分算法*[J]. 数据分析与知识发现, 2021, 5(5): 41-50.
[2] 黄露,周恩国,李岱峰. 融合特定任务信息注意力机制的文本表示学习模型*[J]. 数据分析与知识发现, 2020, 4(9): 111-122.
[3] 李文政,顾益军,闫红丽. 基于网络贝叶斯信息准则算法的社区数量预测研究*[J]. 数据分析与知识发现, 2020, 4(4): 72-82.
[4] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[5] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[6] 裴晶晶,乐小虬. 篇章级并列关系文本块识别方法研究[J]. 数据分析与知识发现, 2019, 3(5): 51-56.
[7] 李想,钱晓东. 商品在线评价对消费趋同影响研究*[J]. 数据分析与知识发现, 2019, 3(3): 102-111.
[8] 严娇,马静,房康. 基于融合共现距离的句法网络下文本语义相似度计算 *[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[9] 蒋武轩,熊回香,叶佳鑫,安宁. 网络社交平台中社群标签动态生成研究 *[J]. 数据分析与知识发现, 2019, 3(10): 98-109.
[10] 钱晓东, 李敏. 基于复杂网络重叠社区的电子商务用户复合类型识别*[J]. 数据分析与知识发现, 2018, 2(6): 79-91.
[11] 李琳, 李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[12] 冯国明, 张晓冬, 刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[13] 陈云伟, 张瑞红. 用于情报挖掘的典型网络社团划分算法比较研究*[J]. 数据分析与知识发现, 2018, 2(10): 84-94.
[14] 陈二静, 姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
[15] 白如江, 冷伏海, 廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn