Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (2): 39-45     https://doi.org/10.11925/infotech.1003-3513.2015.02.06
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于知网语义相似度的中文文本分类研究
刘怀亮, 杜坤, 秦春秀
西安电子科技大学经济与管理学院 西安 710126
Research on Chinese Text Categorization Based on Semantic Similarity of HowNet
Liu Huailiang, Du Kun, Qin Chunxiu
School of Economics & Management, Xidian University, Xi'an 710126, China
全文: PDF (500 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 准确计算中文文本间的相似度, 以提升文本分类的精度。[方法] 利用TF-IDF 算法计算特征词项权值, 并借助知网分析词项间的语义关系, 提出一种基于知网语义相似度的文本相似度加权算法, 并对该算法进行中文文本分类实验。[结果] 实验结果表明, 该方法较传统的文本相似度计算方法在文本分类性能上有所提高。[局限] 该算法的时间复杂度较高, 文本分类的处理速度有待提高。[结论] 该方法考虑特征项间的语义关系, 能够有效提升中文文本的分类精度。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘怀亮
杜坤
秦春秀
关键词 文本分类语义相似度知网    
Abstract

[Objective] This is an algorithm for improving the classification precision of Chinese text classification, which can calculate the similarity between Chinese texts more accurately. [Methods] With the TF-IDF algorithm calculating item weight and HowNet analyzing the semantic relationships between lexical items, this paper proposes a text similarity weighting algorithm based on HowNet semantics similarity, and makes an experiment on its Chinese text classification. [Results] The experiment resualts show that the proposed method can improve the text categorization performance comparing with the traditional ones. [Limitations] This algorithm is quite high in its time complexity, and its speed of text classification needs to be improved. [Conclusions] It is proved to be an effective algorithm for enhancing the classification accuracy of Chinese text by analyzing the semantic relationships between feature items.

Key wordsText classification    Semantic similarity    HowNet
收稿日期: 2014-09-22      出版日期: 2015-03-17
:  G353.1  
基金资助:

本文系国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”(项目编号:71373200)的研究成果之一。

通讯作者: 杜坤, ORCID: 0000-0002-3603-9498, E-mail: 18192514007@163.com。     E-mail: 18192514007@163.com
作者简介: 作者贡献声明: 杜坤, 刘怀亮: 提出研究思路, 设计研究方案;杜坤: 进行实验验证;杜坤, 秦春秀: 论文起草;秦春秀: 论文最终版修订。
引用本文:   
刘怀亮, 杜坤, 秦春秀. 基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术, 2015, 31(2): 39-45.
Liu Huailiang, Du Kun, Qin Chunxiu. Research on Chinese Text Categorization Based on Semantic Similarity of HowNet. New Technology of Library and Information Service, 2015, 31(2): 39-45.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.02.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I2/39

[1] 中国互联网络信息中心. 第34 次中国互联网络发展状况统 计报告[EB/OL]. [2014-07-21]. http://www.cnnic.net.cn. (China Internet Network Information Center. The 34th Statistical Report on Internet Development in China [EB/OL]. [2014-07-21]. http://www.cnnic.net.cn.)
[2] 刘青磊, 顾小丰. 基于《知网》的词语相似度算法研究[J]. 中文信息学报, 2011, 24(6): 31-36. (Liu Qinglei, Gu Xiaofeng. Study on HowNet-based Word Similarity Algorithm [J]. Journal of Chinese Information Processing, 2011, 24(6): 31-36.)
[3] 唐歆瑜, 乐文忠, 李志成, 等. 基于知网语义相似度计算 的特征降维方法研究[J]. 科学技术与工程, 2006, 6(21): 3442-3446. (Tang Xinyu, Le Wenzhong, Li Zhicheng, et al. The Research on Reduced Feature Dimension Based on Hownet Similarity Computing [J]. Science Technology and Engineering, 2006, 6(21): 3442-3446.)
[4] 江敏, 肖诗斌, 王弘蔚, 等. 一种改进的基于《知网》的词 语语义相似度计算[J]. 2008, 22(5): 84-89. (Jiang Min, Xiao Shibin, Wang Hongwei, et al. An Improved Word Similarity Computing Method Based on HowNet [J]. Journal of Chinese Information Processing, 2008, 22(5): 84-89.)
[5] 朱征宇, 孙俊华. 改进的基于《知网》的词汇语义相似度计 算[J]. 计算机应用, 2013, 33(8): 2276-2279, 2288. (Zhu Zhengyu, Sun Junhua. Improved Vocabulary Semantic Similarity Calculation Based on HowNet [J]. Journal of Computer Applications, 2013, 33(8): 2276-2279, 2288.)
[6] 肖志军, 冯广丽. 基于《知网》义原空间的文本相似度计算 [J]. 科学技术与工程, 2013, 13(29): 8651-8656. (Xiao Zhijun, Feng Guangli. Text Similarity Computing Based on HowNet Sememe Space [J]. Science Technology and Engineering, 2013, 13(29): 8651-8656.)
[7] 白秋产, 金春霞, 周海岩. 概念向量文本聚类算法[J]. 计 算机工程与应用, 2011, 47(35): 155-157, 209. (Bai Qiuchan, Jin Chunxia, Zhou Haiyan. Text Clustering Algorithm Based on Concept Vector [J]. Computer Engineering and Applications, 2011, 47(35): 155-157, 209.)
[8] Salton G, Yang C S. On the Specification of Term Value in Automatic Indexing [J]. Journal of Documentation, 1973, 29(4): 351-372.
[9] Satlon G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J]. Communications of ACM, 1975, 18(11): 613-620.
[10] Salton G, McGill M J. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill Inc, 1986.
[11] 刘群, 李素建. 基于知网的词汇语义相似度计算[C]. 见: 第三届汉语词汇语义学研讨会, 2002: 59-76. (Liu Qun, Li Sujian. Vocabulary Semantic Similarity Calculation Based on HowNet [C]. In: Proceedings of Chinese Lexical Semantic Workshop 2002. 2002: 59-76.)
[12] 孙继明, 李舟军, 文健. 基于《知网》的汉语词语词义消歧 方法[J]. 计算机与信息技术, 2007(3): 18-20. (Sun Jiming, Li Zhoujun, Wen Jian. Method of Chinese Word Sense Disambiguation Based on Hownet [J]. Computer and Information Technology, 2007(3): 18-20.)
[13] Tan P, Steinbach M, Kumar V. 数据挖掘导论[M]. 北京: 人 民邮电出版社, 2011. (Tan P, Steinbach M, Kumar V. Introduction to Data Mining [M]. Beijing: Posts & Telecom Press, 2011.)
[14] 中国科学院计算技术研究所. ICTCLAS 汉语分词系统 [EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download. aspx. (Institute of Computing Technology, Chinese Academy of Sciences. ICTCLAS [EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download.aspx.)
[15] 哈工大社会计算与信息检索研究中心. 《同义词词林》扩展版[EB/OL]. [2014-07-10]. http://ir.hit.edu.cn/.(HIT-SCIR. Tongyicicilin [EB/OL]. [2014-07-10]. http://ir.hit.edu.cn/.)
[16] 刘怀亮, 张志国, 马志辉, 等.基于KNN 的中文文本分类反馈 学习研究[J]. 图书情报工作, 2008, 52(10): 101-104. (Liu Huailiang, Zhang Zhiguo, Ma Zhihui, et al. A Feedback Learning Study of Chinese Text Categorization Based on KNN [J]. Library and Information Service, 2008, 52(10): 101-104.)

[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[11] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[13] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[14] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[15] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn