Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (10): 89-97    DOI: 10.11925/infotech.2096-3467.2019.0081
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于KACC模型的文本分类研究 *
李钰曼,陈志泊(),许福
北京林业大学信息学院 北京 100083
Classifying Texts with KACC Model
Yuman Li,Zhibo Chen(),Fu Xu
School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China
全文: PDF(710 KB)   HTML ( 10
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】通过提高文本内容表示的数据质量, 关联文本内容和文本标签向量, 从而提高文本分类的效果。【方法】改进关键词的抽取方法, 并使用关键词向量表示文本, 提出类别标签表示算法对文本类别进行向量化表示, 提出基于注意力机制的胶囊网络作为分类器, 构建KACC模型, 并进行文本分类的对比实验。【结果】KACC模型有效提高了数据质量; 实验结果表明, KACC模型在准确率、召回率、F值三方面均优于现有模型, 分类准确率达97.4%。【局限】实验数据规模受限, 未对类别区分度在其他语料上的代表性进行探究。【结论】KACC模型在文本分类方面与现有分类方法相比具有更好的分类效率和效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李钰曼
陈志泊
许福
关键词 文本分类抽取关键词抽取注意力机制胶囊网络类别标签表示    
Abstract

[Objective] This paper tries to improve the quality of text representation, and correlate contents with text label vectors, aiming to improve the classification results. [Methods] Firstly, we modified the keyword extraction method (KE). We used the keyword vectors to represent the text, and adopted a category label representation algorithm (CLR) to create the text vectors. Then, we employed the attention-based capsule network (Attention-Capsnet) as the classifier, to construct the KACC (KE-Attention-Capsnet-CLR) model. Finally, we compared our classification results with other methods. [Results] KACC model effectively improved the data quality, which led to better Precision, Recall and F-Measure than existing models. The classification precision reached 97.4%. [Limitations] The experimental data size needs to be expanded, and more research is needed to examine the category discrimination rules with other corpuses. [Conclusions] KACC model is an effective classification model for texts.

Key wordsText Classification    Keywords Extraction    Attention Mechanism    Capsule Network    Category Label Representation
收稿日期: 2019-01-18     
中图分类号:  TP391  
基金资助:*本文系国家自然科学基金项目“面向开源软件复用的程序分析基础理论及方法研究”(61772078);北京林业大学热点追踪项目“互联网+生态站关键技术研究”的研究成果之一(2018BLRD18)
通讯作者: 陈志泊     E-mail: zhibo@bjfu.edu.cn
引用本文:   
李钰曼,陈志泊,许福. 基于KACC模型的文本分类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 89-97.
Yuman Li,Zhibo Chen,Fu Xu. Classifying Texts with KACC Model. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0081.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0081
图1  KACC模型流程
评价指标
模型序号
MRR Bpref P R F
1 0.6429 0.7739 0.7491 0.6057 0.6698
2 0.6330 0.7635 0.7226 0.5903 0.6498
3 0.5251 0.7394 0.6240 0.4934 0.5511
4 0.6070 0.7306 0.6741 0.5157 0.5844
5 0.5995 0.7177 0.6276 0.4852 0.5473
6 0.6861 0.7820 0.7776 0.5914 0.6718
表1  语料库组成及分类
图2  关键词向量注意力机制的核心结构[16]
图3  胶囊网络结构
图4  基于关键词向量注意力机制的胶囊网络
类别
数据集
训练集(篇) 测试集(篇) 合计词数(个)
文化 800 200 203.6万
娱乐 800 200 59.6万
历史 800 200 363.3万
军事 800 200 135.4万
文学 800 200 82.2万
合计词数(个) 677.3万 166.8万 844.1万
表2  语料库组成及分类
序号 模型 P R F1
1 FT+CNN+OneHot 0.891 0.885 0.888
2 KE+CNN+OneHot 0.839 0.870 0.854
3 KE+Attention+CNN+OneHot 0.888 0.860 0.874
4 KE+Attention+CNN+CLR 0.901 0.895 0.898
5 KE+Capsnet+OneHot 0.889 0.900 0.894
6 KE+Attention+Capsnet+OneHot 0.954 0.925 0.939
7 KE+Attention+Capsnet+CLR 0.974 0.970 0.972
表3  模型实验结果统计
图5  各模型收敛时间
类别
模型
文学 文化 历史 军事 娱乐
1 0.815 0.840 0.885 0.930 0.985
2 0.770 0.765 0.855 0.870 0.935
3 0.830 0.845 0.890 0.910 0.965
4 0.875 0.880 0.905 0.915 0.930
5 0.800 0.805 0.945 0.910 0.985
6 0.925 0.920 0.955 0.970 1.000
7 0.945 0.950 0.975 1.000 1.000
Avg 0.852 0.858 0.916 0.929 0.971
区分度 0.876 0.882 0.943 0.969 0.998
表4  类别准确率-类别区分度结果统计
图6  类别准确率-类别区分度结果统计
[1] 江伟, 金忠 . 基于短语注意机制的文本分类[J]. 中文信息学报, 2018,32(2):102-109, 119.
( Jiang Wei, Jin Zhong . Text Classification Based on Phrase Attention Mechanism[J]. Journal of Chinese Information Processing, 2018,32(2):102-109, 119.)
[2] 孙飞, 郭嘉丰, 兰艳艳 , 等. 面向文本分类的有监督显式语义表示[J]. 数据采集与处理, 2017,32(3):550-558.
( Sun Fei, Guo Jiafeng, Lan Yanyan , et al. Supervised Explicit Semantic Representation for Text Categorization[J]. Journal of Data Acquisition and Processing, 2017,32(3):550-558.)
[3] Salton G, Yu C T. On the Construction of Effective Vocabularies for Information Retrieval [C]// Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval. ACM, 1973: 48-60.
[4] 杨凯艳 . 基于改进的TFIDF关键词自动提取算法研究[D]. 湘潭: 湘潭大学, 2015.
( Yang Kaiyan . Research on Automatic Keyword Extraction Algorithm Based on Improved TFIDF[D]. Xiangtan:Xiangtan University, 2015.)
[5] 程岚岚 . 面向领域的中文搜索引擎若干关键技术研究[D]. 天津: 天津大学, 2006.
( Cheng Lanlan . The Study of Key Technologies for Chinese Domain-Oriented Search Engine[D]. Tianjin: Tianjin University, 2006.)
[6] 李华灿 . 基于统计与协同过滤的关键词提取研究[D]. 西安: 西安电子科技大学, 2015.
( Li Huacan . Keyword Extraction Base on Statistical and Collaborative Filtering[D]. Xi’an: Xidian University, 2015.)
[7] 谢晋 . 基于词跨度的中文文本关键词提取及在文本分类中的应用[D]. 杭州: 浙江工业大学, 2011.
( Xie Jin . Chinese Keyword Extraction Method Based on Word Span and Its Application in Text Classification[D]. Hangzhou: Zhejiang University of Technology, 2011.)
[8] 陈凯, 黄英来, 高文韬 , 等. 一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报, 2018,23(4):69-74.
( Chen Kai, Huang Yinglai, Gao Wentao , et al. An Improved Naive Bayesian Text Classification Algorithm Based on Weighted Features and Its Complementary Set[J]. Journal of Harbin University of Science and Technology, 2018,23(4):69-74.)
[9] 姚全珠, 宋志理, 彭程 . 基于LDA模型的文本分类研究[J]. 计算机工程与应用, 2011,47(13):150-153.
doi: 10.3778/j.issn.1002-8331.2011.13.043
( Yao Quanzhu, Song Zhili, Peng Cheng . Research on Text Categorization Based on LDA[J]. Computer Engineering and Applications, 2011,47(13):150-153.)
doi: 10.3778/j.issn.1002-8331.2011.13.043
[10] Routray S, Ray A K, Mishra C , et al. Efficient Hybrid Image Denoising Scheme Based on SVM Classification[J]. Optik, 2018,157:503-511.
[11] 魏勇 . 关联语义结合卷积神经网络的文本分类方法[J]. 控制工程, 2018,25(2):367-370.
( Wei Yong . A Text Classification Method Based on Associative Semantics and Convolution Neural Network[J]. Control Engineering of China, 2018,25(2):367-370.)
[12] 谢志峰, 吴佳萍, 马利庄 . 基于卷积神经网络的中文财经新闻分类方法[J]. 山东大学学报: 工学版, 2018,48(3):34-39, 66.
( Xie Zhifeng, Wu Jiaping, Ma Lizhuang . Chinese Financial News Classification Method Based on Convolutional Neural Network[J]. Journal of Shandong University: Engineering Science, 2018,48(3):34-39, 66.)
[13] 卢玲, 杨武, 王远伦 , 等. 结合注意力机制的长文本分类方法[J]. 计算机应用, 2018,38(5):1272-1277.
( Lu Ling, Yang Wu, Wang Yuanlun , et al. Long Text Classification Combined with Attention Mechanism[J]. Journal of Computer Applications, 2018,38(5):1272-1277.)
[14] Sabour S, Frosst N, Hinton G E. Dynamic Routing Between Capsules [C]// Proceedings of the 31st Conference on Neural Information Processing Systems. 2017: 3856-3866.
[15] Afshar P, Mohammadi A, Plataniotis K N. Brain Tumor Type Classification via Capsule Networks [C]// Proceedings of the 25th IEEE International Conference on Image Processing. 2018: 3129-3133.
[16] Zhao Z, Wu Y. Attention-based Convolutional Neural Networks for Sentence Classification [C]// Proceedings of the 2016 Annual Conference of the International Speech Communication Association, San Francisico, CA, USA. ISCA, 2016: 705-709.
[1] 吴粤敏,丁港归,胡滨. 基于注意力机制的农业金融文本关系抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 86-92.
[2] 张震,曾金. 面向用户评论的关键词抽取研究*——以美团为例[J]. 数据分析与知识发现, 2019, 3(3): 36-44.
[3] 王培霞,余海,陈力,王永吉. 科技查新中检索词智能抽取系统的设计与实现*[J]. 现代图书情报技术, 2016, 32(11): 82-93.
[4] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013, 29(9): 30-34.
[5] 叶春蕾, 冷伏海. 基于词汇链的路线图关键词抽取方法研究[J]. 现代图书情报技术, 2013, 29(1): 50-56.
[6] 王昊, 邓三鸿, 苏新宁. 基于字序列标注的中文关键词抽取研究[J]. 现代图书情报技术, 2011, 27(12): 39-45.
[7] 殷蜀梅,张智雄,吴振新. 一种从医学文本中实现自动关键词抽取和筛选的技术方法*[J]. 现代图书情报技术, 2008, 24(8): 31-36.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn