Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (10): 89-97     https://doi.org/10.11925/infotech.2096-3467.2019.0081
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于KACC模型的文本分类研究 *
李钰曼,陈志泊(),许福
北京林业大学信息学院 北京 100083
Classifying Texts with KACC Model
Yuman Li,Zhibo Chen(),Fu Xu
School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China
全文: PDF (710 KB)   HTML ( 13
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】通过提高文本内容表示的数据质量, 关联文本内容和文本标签向量, 从而提高文本分类的效果。【方法】改进关键词的抽取方法, 并使用关键词向量表示文本, 提出类别标签表示算法对文本类别进行向量化表示, 提出基于注意力机制的胶囊网络作为分类器, 构建KACC模型, 并进行文本分类的对比实验。【结果】KACC模型有效提高了数据质量; 实验结果表明, KACC模型在准确率、召回率、F值三方面均优于现有模型, 分类准确率达97.4%。【局限】实验数据规模受限, 未对类别区分度在其他语料上的代表性进行探究。【结论】KACC模型在文本分类方面与现有分类方法相比具有更好的分类效率和效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李钰曼
陈志泊
许福
关键词 文本分类抽取关键词抽取注意力机制胶囊网络类别标签表示    
Abstract

[Objective] This paper tries to improve the quality of text representation, and correlate contents with text label vectors, aiming to improve the classification results. [Methods] Firstly, we modified the keyword extraction method (KE). We used the keyword vectors to represent the text, and adopted a category label representation algorithm (CLR) to create the text vectors. Then, we employed the attention-based capsule network (Attention-Capsnet) as the classifier, to construct the KACC (KE-Attention-Capsnet-CLR) model. Finally, we compared our classification results with other methods. [Results] KACC model effectively improved the data quality, which led to better Precision, Recall and F-Measure than existing models. The classification precision reached 97.4%. [Limitations] The experimental data size needs to be expanded, and more research is needed to examine the category discrimination rules with other corpuses. [Conclusions] KACC model is an effective classification model for texts.

Key wordsText Classification    Keywords Extraction    Attention Mechanism    Capsule Network    Category Label Representation
收稿日期: 2019-01-18      出版日期: 2019-11-25
ZTFLH:  TP391  
基金资助:*本文系国家自然科学基金项目“面向开源软件复用的程序分析基础理论及方法研究”(61772078);北京林业大学热点追踪项目“互联网+生态站关键技术研究”的研究成果之一(2018BLRD18)
通讯作者: 陈志泊     E-mail: zhibo@bjfu.edu.cn
引用本文:   
李钰曼,陈志泊,许福. 基于KACC模型的文本分类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 89-97.
Yuman Li,Zhibo Chen,Fu Xu. Classifying Texts with KACC Model. Data Analysis and Knowledge Discovery, 2019, 3(10): 89-97.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0081      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I10/89
  KACC模型流程
评价指标
模型序号
MRR Bpref P R F
1 0.6429 0.7739 0.7491 0.6057 0.6698
2 0.6330 0.7635 0.7226 0.5903 0.6498
3 0.5251 0.7394 0.6240 0.4934 0.5511
4 0.6070 0.7306 0.6741 0.5157 0.5844
5 0.5995 0.7177 0.6276 0.4852 0.5473
6 0.6861 0.7820 0.7776 0.5914 0.6718
  语料库组成及分类
  关键词向量注意力机制的核心结构[16]
  胶囊网络结构
  基于关键词向量注意力机制的胶囊网络
类别
数据集
训练集(篇) 测试集(篇) 合计词数(个)
文化 800 200 203.6万
娱乐 800 200 59.6万
历史 800 200 363.3万
军事 800 200 135.4万
文学 800 200 82.2万
合计词数(个) 677.3万 166.8万 844.1万
  语料库组成及分类
序号 模型 P R F1
1 FT+CNN+OneHot 0.891 0.885 0.888
2 KE+CNN+OneHot 0.839 0.870 0.854
3 KE+Attention+CNN+OneHot 0.888 0.860 0.874
4 KE+Attention+CNN+CLR 0.901 0.895 0.898
5 KE+Capsnet+OneHot 0.889 0.900 0.894
6 KE+Attention+Capsnet+OneHot 0.954 0.925 0.939
7 KE+Attention+Capsnet+CLR 0.974 0.970 0.972
  模型实验结果统计
  各模型收敛时间
类别
模型
文学 文化 历史 军事 娱乐
1 0.815 0.840 0.885 0.930 0.985
2 0.770 0.765 0.855 0.870 0.935
3 0.830 0.845 0.890 0.910 0.965
4 0.875 0.880 0.905 0.915 0.930
5 0.800 0.805 0.945 0.910 0.985
6 0.925 0.920 0.955 0.970 1.000
7 0.945 0.950 0.975 1.000 1.000
Avg 0.852 0.858 0.916 0.929 0.971
区分度 0.876 0.882 0.943 0.969 0.998
  类别准确率-类别区分度结果统计
  类别准确率-类别区分度结果统计
[1] 江伟, 金忠 . 基于短语注意机制的文本分类[J]. 中文信息学报, 2018,32(2):102-109, 119.
[1] ( Jiang Wei, Jin Zhong . Text Classification Based on Phrase Attention Mechanism[J]. Journal of Chinese Information Processing, 2018,32(2):102-109, 119.)
[2] 孙飞, 郭嘉丰, 兰艳艳 , 等. 面向文本分类的有监督显式语义表示[J]. 数据采集与处理, 2017,32(3):550-558.
[2] ( Sun Fei, Guo Jiafeng, Lan Yanyan , et al. Supervised Explicit Semantic Representation for Text Categorization[J]. Journal of Data Acquisition and Processing, 2017,32(3):550-558.)
[3] Salton G, Yu C T. On the Construction of Effective Vocabularies for Information Retrieval [C]// Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval. ACM, 1973: 48-60.
[4] 杨凯艳 . 基于改进的TFIDF关键词自动提取算法研究[D]. 湘潭: 湘潭大学, 2015.
[4] ( Yang Kaiyan . Research on Automatic Keyword Extraction Algorithm Based on Improved TFIDF[D]. Xiangtan:Xiangtan University, 2015.)
[5] 程岚岚 . 面向领域的中文搜索引擎若干关键技术研究[D]. 天津: 天津大学, 2006.
[5] ( Cheng Lanlan . The Study of Key Technologies for Chinese Domain-Oriented Search Engine[D]. Tianjin: Tianjin University, 2006.)
[6] 李华灿 . 基于统计与协同过滤的关键词提取研究[D]. 西安: 西安电子科技大学, 2015.
[6] ( Li Huacan . Keyword Extraction Base on Statistical and Collaborative Filtering[D]. Xi’an: Xidian University, 2015.)
[7] 谢晋 . 基于词跨度的中文文本关键词提取及在文本分类中的应用[D]. 杭州: 浙江工业大学, 2011.
[7] ( Xie Jin . Chinese Keyword Extraction Method Based on Word Span and Its Application in Text Classification[D]. Hangzhou: Zhejiang University of Technology, 2011.)
[8] 陈凯, 黄英来, 高文韬 , 等. 一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报, 2018,23(4):69-74.
[8] ( Chen Kai, Huang Yinglai, Gao Wentao , et al. An Improved Naive Bayesian Text Classification Algorithm Based on Weighted Features and Its Complementary Set[J]. Journal of Harbin University of Science and Technology, 2018,23(4):69-74.)
[9] 姚全珠, 宋志理, 彭程 . 基于LDA模型的文本分类研究[J]. 计算机工程与应用, 2011,47(13):150-153.
doi: 10.3778/j.issn.1002-8331.2011.13.043
[9] ( Yao Quanzhu, Song Zhili, Peng Cheng . Research on Text Categorization Based on LDA[J]. Computer Engineering and Applications, 2011,47(13):150-153.)
doi: 10.3778/j.issn.1002-8331.2011.13.043
[10] Routray S, Ray A K, Mishra C , et al. Efficient Hybrid Image Denoising Scheme Based on SVM Classification[J]. Optik, 2018,157:503-511.
[11] 魏勇 . 关联语义结合卷积神经网络的文本分类方法[J]. 控制工程, 2018,25(2):367-370.
[11] ( Wei Yong . A Text Classification Method Based on Associative Semantics and Convolution Neural Network[J]. Control Engineering of China, 2018,25(2):367-370.)
[12] 谢志峰, 吴佳萍, 马利庄 . 基于卷积神经网络的中文财经新闻分类方法[J]. 山东大学学报: 工学版, 2018,48(3):34-39, 66.
[12] ( Xie Zhifeng, Wu Jiaping, Ma Lizhuang . Chinese Financial News Classification Method Based on Convolutional Neural Network[J]. Journal of Shandong University: Engineering Science, 2018,48(3):34-39, 66.)
[13] 卢玲, 杨武, 王远伦 , 等. 结合注意力机制的长文本分类方法[J]. 计算机应用, 2018,38(5):1272-1277.
[13] ( Lu Ling, Yang Wu, Wang Yuanlun , et al. Long Text Classification Combined with Attention Mechanism[J]. Journal of Computer Applications, 2018,38(5):1272-1277.)
[14] Sabour S, Frosst N, Hinton G E. Dynamic Routing Between Capsules [C]// Proceedings of the 31st Conference on Neural Information Processing Systems. 2017: 3856-3866.
[15] Afshar P, Mohammadi A, Plataniotis K N. Brain Tumor Type Classification via Capsule Networks [C]// Proceedings of the 25th IEEE International Conference on Image Processing. 2018: 3129-3133.
[16] Zhao Z, Wu Y. Attention-based Convolutional Neural Networks for Sentence Classification [C]// Proceedings of the 2016 Annual Conference of the International Speech Communication Association, San Francisico, CA, USA. ISCA, 2016: 705-709.
[1] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[2] 杨晗迅, 周德群, 马静, 罗永聪. 基于不确定性损失函数和任务层级注意力机制的多任务谣言检测研究*[J]. 数据分析与知识发现, 2021, 5(7): 101-110.
[3] 尹鹏博,潘伟民,张海军,陈德刚. 基于BERT-BiGA模型的标题党新闻识别研究*[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
[4] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[5] 谢豪,毛进,李纲. 基于多层语义融合的图文信息情感分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 103-114.
[6] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[7] 段建勇,魏晓鹏,王昊. 基于多角度共同匹配的多项选择机器阅读理解模型 *[J]. 数据分析与知识发现, 2021, 5(4): 134-141.
[8] 王雨竹,谢珺,陈波,续欣莹. 基于跨模态上下文感知注意力的多模态情感分析 *[J]. 数据分析与知识发现, 2021, 5(4): 49-59.
[9] 蒋翠清,王香香,王钊. 基于消费者关注度的汽车销量预测方法研究*[J]. 数据分析与知识发现, 2021, 5(1): 128-139.
[10] 黄露,周恩国,李岱峰. 融合特定任务信息注意力机制的文本表示学习模型*[J]. 数据分析与知识发现, 2020, 4(9): 111-122.
[11] 尹浩然,曹金璇,曹鲁喆,王国栋. 扩充语义维度的BiGRU-AM突发事件要素识别研究*[J]. 数据分析与知识发现, 2020, 4(9): 91-99.
[12] 石磊,王毅,成颖,魏瑞斌. 自然语言处理中的注意力机制研究综述*[J]. 数据分析与知识发现, 2020, 4(5): 1-14.
[13] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
[14] 祁瑞华,简悦,郭旭,关菁华,杨明昕. 融合特征与注意力的跨领域产品评论情感分析*[J]. 数据分析与知识发现, 2020, 4(12): 85-94.
[15] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn