Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (2): 31-38    DOI: 10.11925/infotech.1003-3513.2015.02.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
利用《知网》和领域关键词集扩展方法的短文本分类研究
李湘东1,2, 曹环1, 丁丛1, 黄莉3
1. 武汉大学信息管理学院 武汉 430072;
2. 武汉大学信息资源研究中心 武汉 430072;
3. 武汉大学图书馆 武汉 430072
Short-text Classification Based on HowNet and Domain Keyword Set Extension
Li Xiangdong1,2, Cao Huan1, Ding Cong1, Huang Li3
1. School of Information Management, Wuhan University, Wuhan 430072, China;
2. Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China;
3. Wuhan University Library, Wuhan 430072, China
全文: PDF(736 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 实现短文本特征扩展, 提高短文本分类性能。[方法] 按照特征词和隐含主题两种特征粒度, 分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布, 将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。[结果] 与LDA 模型的短文本分类算法相比, 本文提出的分类算法在复旦语料、Sogou 语料和微博语料上的Macro_F1 分别平均提高4.9%、5.9%和4.2%, 在Micro_F1 上分别平均提高4.6%、6.2%和2.8%。而与VSM 的短文本分类算法相比, 本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。[局限] 短文本中存在很多《知网》未收录的特征词, 无法利用《知网》计算相似度, 影响分类效果。[结论] 本文方法能有效提高短文本分类性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
黄莉
李湘东
丁丛
曹环
关键词 短文本分类关键词集LDA特征扩展知网    
Abstract

[Objective] This paper aims to implement characteristic extension of short-text and improve short-text classification performance. [Methods] Extract the high frequency words and topic core words of each class of the training set as domain keyword set based on two different feature granularity, which is word and potential topic, and derive the topic probability distribution of the testing text using LDA model, while some topic probability is greater than a certain threshold, extend the keywords of the topic into the testing text. Calculate the sematic similarity of the testing text and the domain keyword set of each class by using HowNet. [Results] Compared with the short-text classification method based on LDA model, the proposed classification algorithm in Fudan corpora, Sogou corpus and the Micro-blog corpus average increase by 4.9%, 5.9% and 4.2% on Macro F1, on the Micro F1 average increased by 4.6%, 6.2% and 4.6%. Compared with the short-text classification method based on VSM model, the method can increase F-measure more than 13% in the all three corpus. And experimental proof in combination with characteristics of high frequency words and subject core words in the field of extension method classification performance is better than the extension method that only using high frequency words or subject core words. [Limitations] There are many words not included by HowNet, and these words cannot use HowNet to calculate similarity. It will affect classification results. [Conclusions] The method of this paper can effectively improve the short-text classification performance.

Key wordsShort-text classification    Keyword set    LDA    Feature extension    HowNet
收稿日期: 2014-07-25     
:  TP391  
通讯作者: 黄莉, ORCID: 0000-0002-3547-3831, E-mail: 709934404@qq.com。     E-mail: 709934404@qq.com
作者简介: 作者贡献声明: 李湘东: 提出研究思路和方案, 论文审阅和最终版本修订;曹环: 系统实现, 进行实验, 论文撰写;丁丛: 进行实验, 文献调研;黄莉: 系统设计, 数据采集, 最终版本修订。
引用本文:   
李湘东, 曹环, 丁丛, 黄莉. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015, 31(2): 31-38.
Li Xiangdong, Cao Huan, Ding Cong, Huang Li. Short-text Classification Based on HowNet and Domain Keyword Set Extension. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.02.05.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.02.05

[1] Zelikovitz S, Hirsh H. Improving Short-Text Classification Using Unlabeled Background Knowledge to Assess Document Similarity [C]. In: Proceedings of the 17th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2000: 1183-1190.
[2] Pu Q, Yang G W. Short-Text Classification Based on ICA and LSA[C]. In: Proceedings of the 3rd International Symposium on Neural Networks, Chengdu, China. 2006: 265-270.
[3] 王细薇, 樊兴华, 赵军. 一种基于特征扩展的中文短文本 分类方法[J]. 计算机应用, 2009, 29(3): 843-845. (Wang Xiwei, Fan Xinghua, Zhao Jun. Method for Chinese Short Text Classification Based on Feature Extension [J]. Journal of Computer Applications, 2009, 29(3): 843-845.)
[4] 赵辉, 刘怀亮. 一种基于维基百科的中文短文本分类算法[J]. 图书情报工作, 2013, 57(11): 120-124. (Zhao Hui, Liu Huailiang. Classification Algorithm of Chinese Short Texts Based on Wikipedia [J]. Library and Information Service, 2013, 57(11): 120-124.)
[5] 张素智, 刘婧姣. 基于语义的KNN 短文本分类算法研究[J]. 郑州轻工业学院学报: 自然科学版, 2012, 27(6): 1-4. (Zhang Suzhi, Liu Jingjiao. A Short Text KNN Classification Algorithm Based on Semantic [J]. Journal of Zhengzhou University of Light Industry: Natural Science, 2012, 27(6): 1-4.)
[6] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类 [J]. 计算机科学, 2009, 36(3): 142-145. (Ning Yahui, Fan Xinghua, Wu Yu. Short Text Classification Based on Domain Word Ontology [J]. Computer Science, 2009, 36(3): 142-145.)
[7] 湛燕, 陈昊. 基于主题本体扩展特征的短文本分类[J].河北 大学学报: 自然科学版, 2014, 34(3): 307-311. (Zhan Yan, Chen Hao. Short Text Classification Based on Theme Ontology Features Extended [J]. Journal of Hebei University: Natural Science Edition, 2014, 34(3): 307-311.)
[8] 胡勇军, 江嘉欣, 常会友. 基于LDA 高频词扩展的中文短 文本分类[J]. 现代图书情报技术, 2013(6): 42-48. (Hu Yongjun, Jiang Jiaxin, Chang Huiyou. A New Method of Keywords Extension for Chinese Short-Text Classification [J]. New Technology of Library and Information Service, 2013(6): 42-48.)
[9] Sriram B, Fuhry D, Demir E, et al. Short Text Classification in Twitter to Improve Information Filtering [C]. In: Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2010: 841-842.
[10] Blei D M, Ng A Y, Jordan M I, et al. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[11] 司宪策. 基于内容的社会标签推荐与分析研究[D]. 北京: 清华大学, 2010. (Si Xiance. Content-based Recommendation and Analysis of Social Tags [D]. Beijing: Tsinghua University, 2010.)
[12] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 计 算语言学及中文语言处理, 2002, 7(2): 59-76. (Liu Qun, Li Sujian. Word Similarity Computating Based on How-net [J]. Computational Linguistics and Chinese Language Processing, 2002,7(2): 59-76.)
[13] 吴健, 吴朝晖, 李莹, 等. 基于本体论和词汇语义相似度 的Web 服务发现[J]. 计算机学报, 2005, 28(4): 595-602. (Wu Jian, Wu Zhaohui, Li Ying, et al. Web Service Discovery Based on Ontology and Similarity of Words [J]. Chinese Journal of Computers, 2005, 28(4): 595-602.)
[14] 李生琦, 田巧燕, 汤承. 基于《<知网>》词汇语义相关度计 算的消歧方法[J]. 情报学报, 2009, 28(5): 706-711. (Li Shengqi, Tian Qiaoyan, Tang Cheng. Disambiguating Method for Computing Relevancy Based on HowNet Semantic Knowledge [J]. Journal of the China Society for Scientific and Technical Information, 2009, 28(5): 706-711.)
[15] 孙建旺, 吕学强, 张雷瀚. 基于语义与最大匹配度的短文 本分类研究[J]. 计算机工程与设计, 2013, 34(10): 3613-3618. (Sun Jianwang, Lv Xueqiang, Zhang Leihan. Short Text Classification Based on Semantics and Maximum Matching Degree [J]. Computer Engineering and Design, 2013, 34(10): 3613-3618.)
[16] 周云, 朱定局, 柏佳宁, 等. 基于HowNet 句子相似度的计 算[J]. 先进技术研究通报, 2010, 4(8): 32-37. (Zhou Yun, Zhu Dingju, Bo Jia'ning. Sentence Similarity Calculation Based on Hownet [J]. Bulletin of Advanced Technology Research, 2010, 4(8): 32-37.)
[17] 复旦大学中文语料库[DB/OL]. [2014-06-20]. http://www.datatang.com/data/43318.(Fudan University Chinese Corpus [DB/OL]. [2014-06-20]. http://www.datatang.com/data/43318.)
[18] 搜狗文本分类语料库 [DB/OL]. [2014-06-20]. http://www.Sogou.com/labs/dl/c.html. (Sogou Classification Corpus [DB/OL]. [2014-06-20]. http://www.Sogou.com/labs/dl/c.html.)
[19] NLPIR 微博内容语料库[DB/OL]. [2014-06-20]. http://www.nlpir.org/?action-viewnews-itemid-231. (NLPIR Corpus [DB/OL]. [2014-06-20]. http://www.nlpir.org/?action-viewnewsitemid-231.)
[20] 奉国和. 文本分类性能评价研究[J]. 情报杂志, 2011, 30(8): 66-70. (Feng Guohe. Review of Performance Evaluation of Text Classification [J]. Journal of Intelligence, 2011, 30(8): 66-70.)

[1] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[2] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[3] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[4] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[5] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[6] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[7] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[8] 何跃,丰月,赵书朋,马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[9] 张涛,马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[10] 徐艳华,苗雨洁,苗琳,吕学强. 基于LDA模型的HSK作文生成*[J]. 数据分析与知识发现, 2018, 2(9): 80-87.
[11] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[12] 曾子明,杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59.
[13] 庞贝贝,苟娟琼,穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[14] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
[15] 王璟琦,李锐,吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn