Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (2): 39-45    DOI: 10.11925/infotech.1003-3513.2015.02.06
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于知网语义相似度的中文文本分类研究
刘怀亮, 杜坤, 秦春秀
西安电子科技大学经济与管理学院 西安 710126
Research on Chinese Text Categorization Based on Semantic Similarity of HowNet
Liu Huailiang, Du Kun, Qin Chunxiu
School of Economics & Management, Xidian University, Xi'an 710126, China
全文: PDF(500 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 准确计算中文文本间的相似度, 以提升文本分类的精度。[方法] 利用TF-IDF 算法计算特征词项权值, 并借助知网分析词项间的语义关系, 提出一种基于知网语义相似度的文本相似度加权算法, 并对该算法进行中文文本分类实验。[结果] 实验结果表明, 该方法较传统的文本相似度计算方法在文本分类性能上有所提高。[局限] 该算法的时间复杂度较高, 文本分类的处理速度有待提高。[结论] 该方法考虑特征项间的语义关系, 能够有效提升中文文本的分类精度。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘怀亮
杜坤
秦春秀
关键词 文本分类语义相似度知网    
Abstract

[Objective] This is an algorithm for improving the classification precision of Chinese text classification, which can calculate the similarity between Chinese texts more accurately. [Methods] With the TF-IDF algorithm calculating item weight and HowNet analyzing the semantic relationships between lexical items, this paper proposes a text similarity weighting algorithm based on HowNet semantics similarity, and makes an experiment on its Chinese text classification. [Results] The experiment resualts show that the proposed method can improve the text categorization performance comparing with the traditional ones. [Limitations] This algorithm is quite high in its time complexity, and its speed of text classification needs to be improved. [Conclusions] It is proved to be an effective algorithm for enhancing the classification accuracy of Chinese text by analyzing the semantic relationships between feature items.

Key wordsText classification    Semantic similarity    HowNet
收稿日期: 2014-09-22     
:  G353.1  
基金资助:

本文系国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”(项目编号:71373200)的研究成果之一。

通讯作者: 杜坤, ORCID: 0000-0002-3603-9498, E-mail: 18192514007@163.com。     E-mail: 18192514007@163.com
作者简介: 作者贡献声明: 杜坤, 刘怀亮: 提出研究思路, 设计研究方案;杜坤: 进行实验验证;杜坤, 秦春秀: 论文起草;秦春秀: 论文最终版修订。
引用本文:   
刘怀亮, 杜坤, 秦春秀. 基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术, 2015, 31(2): 39-45.
Liu Huailiang, Du Kun, Qin Chunxiu. Research on Chinese Text Categorization Based on Semantic Similarity of HowNet. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.02.06.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.02.06

[1] 中国互联网络信息中心. 第34 次中国互联网络发展状况统 计报告[EB/OL]. [2014-07-21]. http://www.cnnic.net.cn. (China Internet Network Information Center. The 34th Statistical Report on Internet Development in China [EB/OL]. [2014-07-21]. http://www.cnnic.net.cn.)
[2] 刘青磊, 顾小丰. 基于《知网》的词语相似度算法研究[J]. 中文信息学报, 2011, 24(6): 31-36. (Liu Qinglei, Gu Xiaofeng. Study on HowNet-based Word Similarity Algorithm [J]. Journal of Chinese Information Processing, 2011, 24(6): 31-36.)
[3] 唐歆瑜, 乐文忠, 李志成, 等. 基于知网语义相似度计算 的特征降维方法研究[J]. 科学技术与工程, 2006, 6(21): 3442-3446. (Tang Xinyu, Le Wenzhong, Li Zhicheng, et al. The Research on Reduced Feature Dimension Based on Hownet Similarity Computing [J]. Science Technology and Engineering, 2006, 6(21): 3442-3446.)
[4] 江敏, 肖诗斌, 王弘蔚, 等. 一种改进的基于《知网》的词 语语义相似度计算[J]. 2008, 22(5): 84-89. (Jiang Min, Xiao Shibin, Wang Hongwei, et al. An Improved Word Similarity Computing Method Based on HowNet [J]. Journal of Chinese Information Processing, 2008, 22(5): 84-89.)
[5] 朱征宇, 孙俊华. 改进的基于《知网》的词汇语义相似度计 算[J]. 计算机应用, 2013, 33(8): 2276-2279, 2288. (Zhu Zhengyu, Sun Junhua. Improved Vocabulary Semantic Similarity Calculation Based on HowNet [J]. Journal of Computer Applications, 2013, 33(8): 2276-2279, 2288.)
[6] 肖志军, 冯广丽. 基于《知网》义原空间的文本相似度计算 [J]. 科学技术与工程, 2013, 13(29): 8651-8656. (Xiao Zhijun, Feng Guangli. Text Similarity Computing Based on HowNet Sememe Space [J]. Science Technology and Engineering, 2013, 13(29): 8651-8656.)
[7] 白秋产, 金春霞, 周海岩. 概念向量文本聚类算法[J]. 计 算机工程与应用, 2011, 47(35): 155-157, 209. (Bai Qiuchan, Jin Chunxia, Zhou Haiyan. Text Clustering Algorithm Based on Concept Vector [J]. Computer Engineering and Applications, 2011, 47(35): 155-157, 209.)
[8] Salton G, Yang C S. On the Specification of Term Value in Automatic Indexing [J]. Journal of Documentation, 1973, 29(4): 351-372.
[9] Satlon G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J]. Communications of ACM, 1975, 18(11): 613-620.
[10] Salton G, McGill M J. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill Inc, 1986.
[11] 刘群, 李素建. 基于知网的词汇语义相似度计算[C]. 见: 第三届汉语词汇语义学研讨会, 2002: 59-76. (Liu Qun, Li Sujian. Vocabulary Semantic Similarity Calculation Based on HowNet [C]. In: Proceedings of Chinese Lexical Semantic Workshop 2002. 2002: 59-76.)
[12] 孙继明, 李舟军, 文健. 基于《知网》的汉语词语词义消歧 方法[J]. 计算机与信息技术, 2007(3): 18-20. (Sun Jiming, Li Zhoujun, Wen Jian. Method of Chinese Word Sense Disambiguation Based on Hownet [J]. Computer and Information Technology, 2007(3): 18-20.)
[13] Tan P, Steinbach M, Kumar V. 数据挖掘导论[M]. 北京: 人 民邮电出版社, 2011. (Tan P, Steinbach M, Kumar V. Introduction to Data Mining [M]. Beijing: Posts & Telecom Press, 2011.)
[14] 中国科学院计算技术研究所. ICTCLAS 汉语分词系统 [EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download. aspx. (Institute of Computing Technology, Chinese Academy of Sciences. ICTCLAS [EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download.aspx.)
[15] 哈工大社会计算与信息检索研究中心. 《同义词词林》扩展版[EB/OL]. [2014-07-10]. http://ir.hit.edu.cn/.(HIT-SCIR. Tongyicicilin [EB/OL]. [2014-07-10]. http://ir.hit.edu.cn/.)
[16] 刘怀亮, 张志国, 马志辉, 等.基于KNN 的中文文本分类反馈 学习研究[J]. 图书情报工作, 2008, 52(10): 101-104. (Liu Huailiang, Zhang Zhiguo, Ma Zhihui, et al. A Feedback Learning Study of Chinese Text Categorization Based on KNN [J]. Library and Information Service, 2008, 52(10): 101-104.)

[1] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[2] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[3] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[4] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[5] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[6] 刘浏,王东波. 基于论文自动分类的社科类学科跨学科性研究*[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[7] 冯国明,张晓冬,刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[8] 陈二静,姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
[9] 翟东升,蔡文浩,张杰,李振飞. 改进的中文商标语义相似度计算方法研究[J]. 数据分析与知识发现, 2017, 1(11): 19-28.
[10] 李湘东,阮涛,刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[11] 路永和,陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
[12] 刘健,毕强,刘庆旭,王福. 数字文献资源内容服务推荐研究*——基于本体规则推理和语义相似度计算[J]. 现代图书情报技术, 2016, 32(9): 70-77.
[13] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[14] 巴志超,李纲,朱世伟. 基于语义网络的研究兴趣相似性度量方法*[J]. 现代图书情报技术, 2016, 32(4): 81-90.
[15] 李湘东,刘康,丁丛,高凡. 基于《知网》的多种类型文献混合自动分类研究*[J]. 现代图书情报技术, 2016, 32(2): 59-66.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn