Please wait a minute...
Advanced Search
现代图书情报技术  2012, Vol. 28 Issue (3): 47-52     https://doi.org/10.11925/infotech.1003-3513.2012.03.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于维基百科的中文短文本分类研究
范云杰, 刘怀亮
西安电子科技大学经济管理学院 西安 710071
Research on Chinese Short Text Classification Based on Wikipedia
Fan Yunjie, Liu Huailiang
School of Economics and Management, Xidian University, Xi’an 710071, China
全文: PDF (654 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
范云杰
刘怀亮
关键词 短文本维基百科文本分类特征扩展    
Abstract:According to the characteristics of Chinese short texts, a method of feature extension is introduced to help text classification. Firstly, related concepts are extracted from Wikipedia and concept associativity is calculated based on the combination of statistical laws and categories. Then the semantic related concept sets are built to extend the eigenvector of short text in order to supply its semantic features. The contrast experiment shows that the algorithm of short text classification based on Wikipedia can get a better classified effect.
Key wordsShort text    Wikipedia    Text classification    Feature extension
收稿日期: 2012-02-01      出版日期: 2012-04-19
: 

TP391.1

 
引用本文:   
范云杰, 刘怀亮. 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012, 28(3): 47-52.
Fan Yunjie, Liu Huailiang. Research on Chinese Short Text Classification Based on Wikipedia. New Technology of Library and Information Service, 2012, 28(3): 47-52.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2012.03.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2012/V28/I3/47
[1] 王细薇, 沈云琴. 中文短文本分类方法研究[J]. 现代计算机, 2010(7): 28-31.(Wang Xiwei, Shen Yunqin. Research on Chinese Short Text Classification Method[J]. Modern Computer, 2010(7):28-31.)

[2] Metaler D, Dumais S C, Meek C. Similarity Measures for Short Segments of Text[C]. In: Proceedings of the 29th European Conference on Information Retrieval. Berlin: Springer-Verlag, 2007.

[3] Sahami M, Heilman T D. A Web-based Kernel Function for Measuring the Similarity of Short Text Snippets[C]. In: Proceedings of the 15th International World Wide Web Conference Committee (IW3C2), Edinburgh, Scotland. New York: ACM Press, 2006: 377-386.

[4] Hynek J, Jezek K, Rohlik O. Short Document Categorization-Itemsets Method[C]. In : Proceedings of the 4th European Conference on Principles and Practice of Knowledge Discovery in Databases, Workshop Machine Learning and Textual Information Access, Lyon, France. 2000:14-19.

[5] Zelikovitz S, Transductive M F. Learning for Short-Text Classification Problem Using Latent Semantic Indexing International[J]. Journal of Pattern Recognition and Artificial Intelligence, 2005, 19(2):143-163.

[6] 王鹏, 樊兴华. 中文文本分类中利用依存关系的实验研究[J]. 计算机工程与应用, 2010, 46(3): 131-133.(Wang Peng, Fan Xinghua. Study on Chinese Text Classification Based on Dependency Relation[J]. Computer Engineering and Applications, 2010, 46(3): 131-133.)

[7] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学, 2009,36(3): 142-145.(Ning Yahui, Fan Xinghua, Wu Yu. Short Text Classification Based on Domain Word Ontology[J]. Computer Science, 2009,36(3): 142-145.)

[8] 王盛, 樊兴华, 陈现麟. 利用上下位关系的中文短文本分类[J]. 计算机应用, 2010,30(3): 603-611.(Wang Sheng, Fan Xinghua, Chen Xianlin. Chinese Short Text Classification Based on Hyponymy Relation[J]. Journal of Computer Application, 2010,30(3): 603-611.)

[9] 张海粟, 马大明, 邓智龙. 基于维基百科的语义知识库及其构建方法研究[J]. 计算机应用研究, 2011,28(8): 2807-2811. (Zhang Haisu, Ma Daming, Deng Zhilong. Semantic Knowledge Bases Construction Based on Wikipedia[J]. Application Research of Computers, 2011,28(8): 2807-2811.)

[10] Wang P, Domeniconi C. Building Semantic Kernels for Text Classification Using Wikipedia[C]. In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada,USA. ACM:New York,2008:713-721.

[11] 裘江南, 秦璇, 仲秋雁. 异质知识网络相关度算法研究[J]. 情报学报, 2011,30(5): 495-502.(Qiu Jiangnan, Qin Xuan, Zhong Qiuyan. Research on Relatedness Algorithms in Heterogeneous Knowledge Network[J]. Journal of the China Society for Scientific and Technical Information, 2011,30(5): 495-502.)

[12] Wikipedia[EB/OL].[2011-12-08]. http://zh.wikipedia.org.

[13] 盛志超, 陶晓鹏. 基于维基百科的语义相似度计算方法[J]. 计算机工程, 2011,37(7): 193-195.(Sheng Zhichao, Tao Xiaopeng. Semantic Similarity Computing Method Based on Wikipedia[J]. Computer Engineering, 2011,37(7): 193-195.)

[14] 苏小康. 基于维基百科构建语义知识库及其在文本分类领域的应用研究[D]. 武汉:华中师范大学, 2010.(Su Xiaokang. Research on Building Wikipedia Semantic Knowledge Base and Its Application in Text Classification[D]. Wuhan: Central China Normal University, 2010)

[15] 王元珍, 钱铁云, 冯小年. 基于关联规则挖掘的中文文本自动分类[J]. 小型微型计算机系统, 2005, 26(8): 1380-1383.(Wang Yuanzhen, Qian Tieyun, Feng Xiaonian. Association Rules Based Automatic Chinese Text Categorization[J]. Mini-micro Systems, 2005, 26(8):1380-1383)

[16] Salton G, McGillM J. Introduction to Modern Information Retrieval[M]. New York, NY, USA:McGraw Hill, 1983.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 吴旭,陈春旭. 基于多策略的群聊话题检测技术*[J]. 数据分析与知识发现, 2021, 5(5): 1-9.
[5] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[6] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[7] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[8] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[9] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[10] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[11] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[12] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[13] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[14] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[15] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn