Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (2): 31-38     https://doi.org/10.11925/infotech.1003-3513.2015.02.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
利用《知网》和领域关键词集扩展方法的短文本分类研究
李湘东1,2, 曹环1, 丁丛1, 黄莉3
1. 武汉大学信息管理学院 武汉 430072;
2. 武汉大学信息资源研究中心 武汉 430072;
3. 武汉大学图书馆 武汉 430072
Short-text Classification Based on HowNet and Domain Keyword Set Extension
Li Xiangdong1,2, Cao Huan1, Ding Cong1, Huang Li3
1. School of Information Management, Wuhan University, Wuhan 430072, China;
2. Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China;
3. Wuhan University Library, Wuhan 430072, China
全文: PDF (736 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 实现短文本特征扩展, 提高短文本分类性能。[方法] 按照特征词和隐含主题两种特征粒度, 分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布, 将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。[结果] 与LDA 模型的短文本分类算法相比, 本文提出的分类算法在复旦语料、Sogou 语料和微博语料上的Macro_F1 分别平均提高4.9%、5.9%和4.2%, 在Micro_F1 上分别平均提高4.6%、6.2%和2.8%。而与VSM 的短文本分类算法相比, 本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。[局限] 短文本中存在很多《知网》未收录的特征词, 无法利用《知网》计算相似度, 影响分类效果。[结论] 本文方法能有效提高短文本分类性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
黄莉
李湘东
丁丛
曹环
关键词 短文本分类关键词集LDA特征扩展知网    
Abstract

[Objective] This paper aims to implement characteristic extension of short-text and improve short-text classification performance. [Methods] Extract the high frequency words and topic core words of each class of the training set as domain keyword set based on two different feature granularity, which is word and potential topic, and derive the topic probability distribution of the testing text using LDA model, while some topic probability is greater than a certain threshold, extend the keywords of the topic into the testing text. Calculate the sematic similarity of the testing text and the domain keyword set of each class by using HowNet. [Results] Compared with the short-text classification method based on LDA model, the proposed classification algorithm in Fudan corpora, Sogou corpus and the Micro-blog corpus average increase by 4.9%, 5.9% and 4.2% on Macro F1, on the Micro F1 average increased by 4.6%, 6.2% and 4.6%. Compared with the short-text classification method based on VSM model, the method can increase F-measure more than 13% in the all three corpus. And experimental proof in combination with characteristics of high frequency words and subject core words in the field of extension method classification performance is better than the extension method that only using high frequency words or subject core words. [Limitations] There are many words not included by HowNet, and these words cannot use HowNet to calculate similarity. It will affect classification results. [Conclusions] The method of this paper can effectively improve the short-text classification performance.

Key wordsShort-text classification    Keyword set    LDA    Feature extension    HowNet
收稿日期: 2014-07-25      出版日期: 2015-03-17
:  TP391  
通讯作者: 黄莉, ORCID: 0000-0002-3547-3831, E-mail: 709934404@qq.com。     E-mail: 709934404@qq.com
作者简介: 作者贡献声明: 李湘东: 提出研究思路和方案, 论文审阅和最终版本修订;曹环: 系统实现, 进行实验, 论文撰写;丁丛: 进行实验, 文献调研;黄莉: 系统设计, 数据采集, 最终版本修订。
引用本文:   
李湘东, 曹环, 丁丛, 黄莉. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015, 31(2): 31-38.
Li Xiangdong, Cao Huan, Ding Cong, Huang Li. Short-text Classification Based on HowNet and Domain Keyword Set Extension. New Technology of Library and Information Service, 2015, 31(2): 31-38.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.02.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I2/31

[1] Zelikovitz S, Hirsh H. Improving Short-Text Classification Using Unlabeled Background Knowledge to Assess Document Similarity [C]. In: Proceedings of the 17th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2000: 1183-1190.
[2] Pu Q, Yang G W. Short-Text Classification Based on ICA and LSA[C]. In: Proceedings of the 3rd International Symposium on Neural Networks, Chengdu, China. 2006: 265-270.
[3] 王细薇, 樊兴华, 赵军. 一种基于特征扩展的中文短文本 分类方法[J]. 计算机应用, 2009, 29(3): 843-845. (Wang Xiwei, Fan Xinghua, Zhao Jun. Method for Chinese Short Text Classification Based on Feature Extension [J]. Journal of Computer Applications, 2009, 29(3): 843-845.)
[4] 赵辉, 刘怀亮. 一种基于维基百科的中文短文本分类算法[J]. 图书情报工作, 2013, 57(11): 120-124. (Zhao Hui, Liu Huailiang. Classification Algorithm of Chinese Short Texts Based on Wikipedia [J]. Library and Information Service, 2013, 57(11): 120-124.)
[5] 张素智, 刘婧姣. 基于语义的KNN 短文本分类算法研究[J]. 郑州轻工业学院学报: 自然科学版, 2012, 27(6): 1-4. (Zhang Suzhi, Liu Jingjiao. A Short Text KNN Classification Algorithm Based on Semantic [J]. Journal of Zhengzhou University of Light Industry: Natural Science, 2012, 27(6): 1-4.)
[6] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类 [J]. 计算机科学, 2009, 36(3): 142-145. (Ning Yahui, Fan Xinghua, Wu Yu. Short Text Classification Based on Domain Word Ontology [J]. Computer Science, 2009, 36(3): 142-145.)
[7] 湛燕, 陈昊. 基于主题本体扩展特征的短文本分类[J].河北 大学学报: 自然科学版, 2014, 34(3): 307-311. (Zhan Yan, Chen Hao. Short Text Classification Based on Theme Ontology Features Extended [J]. Journal of Hebei University: Natural Science Edition, 2014, 34(3): 307-311.)
[8] 胡勇军, 江嘉欣, 常会友. 基于LDA 高频词扩展的中文短 文本分类[J]. 现代图书情报技术, 2013(6): 42-48. (Hu Yongjun, Jiang Jiaxin, Chang Huiyou. A New Method of Keywords Extension for Chinese Short-Text Classification [J]. New Technology of Library and Information Service, 2013(6): 42-48.)
[9] Sriram B, Fuhry D, Demir E, et al. Short Text Classification in Twitter to Improve Information Filtering [C]. In: Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2010: 841-842.
[10] Blei D M, Ng A Y, Jordan M I, et al. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[11] 司宪策. 基于内容的社会标签推荐与分析研究[D]. 北京: 清华大学, 2010. (Si Xiance. Content-based Recommendation and Analysis of Social Tags [D]. Beijing: Tsinghua University, 2010.)
[12] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 计 算语言学及中文语言处理, 2002, 7(2): 59-76. (Liu Qun, Li Sujian. Word Similarity Computating Based on How-net [J]. Computational Linguistics and Chinese Language Processing, 2002,7(2): 59-76.)
[13] 吴健, 吴朝晖, 李莹, 等. 基于本体论和词汇语义相似度 的Web 服务发现[J]. 计算机学报, 2005, 28(4): 595-602. (Wu Jian, Wu Zhaohui, Li Ying, et al. Web Service Discovery Based on Ontology and Similarity of Words [J]. Chinese Journal of Computers, 2005, 28(4): 595-602.)
[14] 李生琦, 田巧燕, 汤承. 基于《<知网>》词汇语义相关度计 算的消歧方法[J]. 情报学报, 2009, 28(5): 706-711. (Li Shengqi, Tian Qiaoyan, Tang Cheng. Disambiguating Method for Computing Relevancy Based on HowNet Semantic Knowledge [J]. Journal of the China Society for Scientific and Technical Information, 2009, 28(5): 706-711.)
[15] 孙建旺, 吕学强, 张雷瀚. 基于语义与最大匹配度的短文 本分类研究[J]. 计算机工程与设计, 2013, 34(10): 3613-3618. (Sun Jianwang, Lv Xueqiang, Zhang Leihan. Short Text Classification Based on Semantics and Maximum Matching Degree [J]. Computer Engineering and Design, 2013, 34(10): 3613-3618.)
[16] 周云, 朱定局, 柏佳宁, 等. 基于HowNet 句子相似度的计 算[J]. 先进技术研究通报, 2010, 4(8): 32-37. (Zhou Yun, Zhu Dingju, Bo Jia'ning. Sentence Similarity Calculation Based on Hownet [J]. Bulletin of Advanced Technology Research, 2010, 4(8): 32-37.)
[17] 复旦大学中文语料库[DB/OL]. [2014-06-20]. http://www.datatang.com/data/43318.(Fudan University Chinese Corpus [DB/OL]. [2014-06-20]. http://www.datatang.com/data/43318.)
[18] 搜狗文本分类语料库 [DB/OL]. [2014-06-20]. http://www.Sogou.com/labs/dl/c.html. (Sogou Classification Corpus [DB/OL]. [2014-06-20]. http://www.Sogou.com/labs/dl/c.html.)
[19] NLPIR 微博内容语料库[DB/OL]. [2014-06-20]. http://www.nlpir.org/?action-viewnews-itemid-231. (NLPIR Corpus [DB/OL]. [2014-06-20]. http://www.nlpir.org/?action-viewnewsitemid-231.)
[20] 奉国和. 文本分类性能评价研究[J]. 情报杂志, 2011, 30(8): 66-70. (Feng Guohe. Review of Performance Evaluation of Text Classification [J]. Journal of Intelligence, 2011, 30(8): 66-70.)

[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[3] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[4] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[5] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[7] 叶光辉,曾杰妍,胡婧岚,毕崇武. 城市画像视角下的社会公众情感演化研究*[J]. 数据分析与知识发现, 2020, 4(4): 15-26.
[8] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[9] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[10] 叶光辉,徐彤,毕崇武,李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析*[J]. 数据分析与知识发现, 2020, 4(11): 121-130.
[11] 黄微,赵江元,闫璐. 网络热点事件话题漂移指数构建与实证研究*[J]. 数据分析与知识发现, 2020, 4(11): 92-101.
[12] 王晰巍,张柳,黄博,韦雅楠. 基于LDA的微博用户主题图谱构建及实证研究*——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10): 47-57.
[13] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[14] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[15] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn