Please wait a minute...
Advanced Search
现代图书情报技术  2012, Vol. 28 Issue (3): 47-52    DOI: 10.11925/infotech.1003-3513.2012.03.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于维基百科的中文短文本分类研究
范云杰, 刘怀亮
西安电子科技大学经济管理学院 西安 710071
Research on Chinese Short Text Classification Based on Wikipedia
Fan Yunjie, Liu Huailiang
School of Economics and Management, Xidian University, Xi’an 710071, China
全文: PDF(654 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
范云杰
刘怀亮
关键词 短文本维基百科文本分类特征扩展    
Abstract:According to the characteristics of Chinese short texts, a method of feature extension is introduced to help text classification. Firstly, related concepts are extracted from Wikipedia and concept associativity is calculated based on the combination of statistical laws and categories. Then the semantic related concept sets are built to extend the eigenvector of short text in order to supply its semantic features. The contrast experiment shows that the algorithm of short text classification based on Wikipedia can get a better classified effect.
Key wordsShort text    Wikipedia    Text classification    Feature extension
收稿日期: 2012-02-01     
: 

TP391.1

 
引用本文:   
范云杰, 刘怀亮. 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012, 28(3): 47-52.
Fan Yunjie, Liu Huailiang. Research on Chinese Short Text Classification Based on Wikipedia. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2012.03.08.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2012.03.08
[1] 王细薇, 沈云琴. 中文短文本分类方法研究[J]. 现代计算机, 2010(7): 28-31.(Wang Xiwei, Shen Yunqin. Research on Chinese Short Text Classification Method[J]. Modern Computer, 2010(7):28-31.)

[2] Metaler D, Dumais S C, Meek C. Similarity Measures for Short Segments of Text[C]. In: Proceedings of the 29th European Conference on Information Retrieval. Berlin: Springer-Verlag, 2007.

[3] Sahami M, Heilman T D. A Web-based Kernel Function for Measuring the Similarity of Short Text Snippets[C]. In: Proceedings of the 15th International World Wide Web Conference Committee (IW3C2), Edinburgh, Scotland. New York: ACM Press, 2006: 377-386.

[4] Hynek J, Jezek K, Rohlik O. Short Document Categorization-Itemsets Method[C]. In : Proceedings of the 4th European Conference on Principles and Practice of Knowledge Discovery in Databases, Workshop Machine Learning and Textual Information Access, Lyon, France. 2000:14-19.

[5] Zelikovitz S, Transductive M F. Learning for Short-Text Classification Problem Using Latent Semantic Indexing International[J]. Journal of Pattern Recognition and Artificial Intelligence, 2005, 19(2):143-163.

[6] 王鹏, 樊兴华. 中文文本分类中利用依存关系的实验研究[J]. 计算机工程与应用, 2010, 46(3): 131-133.(Wang Peng, Fan Xinghua. Study on Chinese Text Classification Based on Dependency Relation[J]. Computer Engineering and Applications, 2010, 46(3): 131-133.)

[7] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学, 2009,36(3): 142-145.(Ning Yahui, Fan Xinghua, Wu Yu. Short Text Classification Based on Domain Word Ontology[J]. Computer Science, 2009,36(3): 142-145.)

[8] 王盛, 樊兴华, 陈现麟. 利用上下位关系的中文短文本分类[J]. 计算机应用, 2010,30(3): 603-611.(Wang Sheng, Fan Xinghua, Chen Xianlin. Chinese Short Text Classification Based on Hyponymy Relation[J]. Journal of Computer Application, 2010,30(3): 603-611.)

[9] 张海粟, 马大明, 邓智龙. 基于维基百科的语义知识库及其构建方法研究[J]. 计算机应用研究, 2011,28(8): 2807-2811. (Zhang Haisu, Ma Daming, Deng Zhilong. Semantic Knowledge Bases Construction Based on Wikipedia[J]. Application Research of Computers, 2011,28(8): 2807-2811.)

[10] Wang P, Domeniconi C. Building Semantic Kernels for Text Classification Using Wikipedia[C]. In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada,USA. ACM:New York,2008:713-721.

[11] 裘江南, 秦璇, 仲秋雁. 异质知识网络相关度算法研究[J]. 情报学报, 2011,30(5): 495-502.(Qiu Jiangnan, Qin Xuan, Zhong Qiuyan. Research on Relatedness Algorithms in Heterogeneous Knowledge Network[J]. Journal of the China Society for Scientific and Technical Information, 2011,30(5): 495-502.)

[12] Wikipedia[EB/OL].[2011-12-08]. http://zh.wikipedia.org.

[13] 盛志超, 陶晓鹏. 基于维基百科的语义相似度计算方法[J]. 计算机工程, 2011,37(7): 193-195.(Sheng Zhichao, Tao Xiaopeng. Semantic Similarity Computing Method Based on Wikipedia[J]. Computer Engineering, 2011,37(7): 193-195.)

[14] 苏小康. 基于维基百科构建语义知识库及其在文本分类领域的应用研究[D]. 武汉:华中师范大学, 2010.(Su Xiaokang. Research on Building Wikipedia Semantic Knowledge Base and Its Application in Text Classification[D]. Wuhan: Central China Normal University, 2010)

[15] 王元珍, 钱铁云, 冯小年. 基于关联规则挖掘的中文文本自动分类[J]. 小型微型计算机系统, 2005, 26(8): 1380-1383.(Wang Yuanzhen, Qian Tieyun, Feng Xiaonian. Association Rules Based Automatic Chinese Text Categorization[J]. Mini-micro Systems, 2005, 26(8):1380-1383)

[16] Salton G, McGillM J. Introduction to Modern Information Retrieval[M]. New York, NY, USA:McGraw Hill, 1983.
[1] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[2] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[3] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[4] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[5] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[6] 刘浏,王东波. 基于论文自动分类的社科类学科跨学科性研究*[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[7] 冯国明,张晓冬,刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[8] 李湘东,阮涛,刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[9] 路永和,陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
[10] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[11] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[12] 夏天. 基于维基百科的中文文本层次路径生成研究*[J]. 现代图书情报技术, 2016, 32(3): 25-32.
[13] 李湘东,刘康,丁丛,高凡. 基于《知网》的多种类型文献混合自动分类研究*[J]. 现代图书情报技术, 2016, 32(2): 59-66.
[14] 张群, 王红军, 王伦文. 词向量与LDA相融合的短文本分类方法*[J]. 数据分析与知识发现, 2016, 32(12): 27-35.
[15] 胡菊香, 吕学强, 刘克会. 利用类别引导词的投诉文本分类[J]. 现代图书情报技术, 2015, 31(7-8): 97-103.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn