Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (12): 68-76     https://doi.org/10.11925/infotech.2096-3467.2018.0391
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于CapsNet的中文文本分类研究*
冯国明, 张晓冬(), 刘素辉
北京科技大学经济管理学院 北京 100083
Classifying Chinese Texts with CapsNet
Feng Guoming, Zhang Xiaodong(), Liu Suhui
School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China
全文: PDF (732 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】解决长文本的表示问题并将CapsNet应用于中文文本分类任务中, 提高分类精度。【方法】针对长文本提出LDA矩阵和词向量体表示法, 并结合CapsNet提出基于CapsNet的中文文本分类模型。以搜狗新闻语料与复旦大学文本分类语料作为实验数据, 将TextCNN、DNN等模型作为对比对象进行文本分类实验与分析。【结果】CapsNet模型在中文文本分类的各评价指标上均优于其他模型, 在5类短文本、长文本分类中准确率分别达89.6%、96.9%, 且收敛速度比CNN模型快近两倍。【局限】模型计算时间复杂度高, 实验语料规模受限。【结论】本文方法和CapsNet模型在中文文本分类中相对于已有方法有更好的准确率、收敛速度和鲁棒性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
冯国明
张晓冬
刘素辉
关键词 文本分类CapsNet深度学习文本表示TextCNN    
Abstract

[Objective] This study tries to address the issues facing long text representation and use CapsNet to improve the accuracy of Chinese text classification. [Methods] First, we proposed a LDA matrix and word vector to represent the long texts. Then, we constructed a Chinese classification model based on CapsNet. Third, we examined the proposed model with Sogou news corpus and the text classification corpus of Fudan University. Finally, we compared our results with those of the classic models (e.g., TextCNN, DNN and so on). [Results] The performance of CapsNet model was better than other models. The classification accuracy in five categories of short and long texts reached 89.6% and 96.9% respectively. The convergence speed of the proposed model was almost two times faster than that of the CNN model. [Limitations] The computational complexity of the model is high, which limits the size of testing corpus. [Conclusions] The proposed Chinese text representation method and the modified CapsNet model have better accuracy, convergence speed and robustness than the existing ones.

Key wordsText Categorization    CapsNet    Deep Learning    Text Representation    TextCNN
收稿日期: 2018-04-08      出版日期: 2019-01-16
ZTFLH:  G350  
基金资助:*本文系国家自然科学基金项目“智能制造环境下生产系统的组织集成建模与协同仿真研究”(项目编号: 71871018)的研究成果 之一
引用本文:   
冯国明, 张晓冬, 刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
Feng Guoming,Zhang Xiaodong,Liu Suhui. Classifying Chinese Texts with CapsNet. Data Analysis and Knowledge Discovery, 2018, 2(12): 68-76.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0391      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I12/68
  目前主流文本分类模型的一般结构
  基于LDA的文本矩阵表示结构
  基于Word2Vec的词向量体表示结构
  CapsNet结构
  Capsule层间计算
  W2V_matrix/LDA_matrix/W2V_cuboid+CapsNet文本分类模型
类别
数据集
训练集 测试集 合计条数
体育 8 000 2 000 10 000
娱乐 8 000 2 000 10 000
教育 8 000 2 000 10 000
财经 8 000 2 000 10 000
科技 8 000 2 000 10 000
合计条数 40 000 10 000 50 000
  搜狗新闻语料库组成及分类
类别
数据集
训练集 测试集 合计词数
C19-Computer 850篇 150篇 276万
C32-Agriculture 850篇 150篇 293万
C34-Economy 850篇 150篇 282万
C38-Politics 850篇 150篇 213万
C39-Sports 850篇 150篇 255万
合计词数 1 130万 189万 1 319万
  复旦语料库组成及分类
任务 序号 模型 文本表示 分类器
短文本
分类
1 LDA+KNN LDA KNN
2 LDA+DNN LDA DNN
3 W2V_matrix+TextCNN W2V_matrix CNN
4 W2V_matrix+CapsNet W2V_matrix CapsNet
长文本
分类
5 LDA+DNN LDA DNN
6 LDA_matrix+DNN LDA_matrix DNN
7 LDA_matrix+CapsNet LDA_matrix CapsNet
8 W2V_cuboid+CNN W2V_cuboid CNN
9 W2V_cuboid+CapsNet W2V_cuboid CapsNet
  实验所用模型构成
序号 方法 P R F
1 LDA+KNN 0.681 0.712 0.696
2 LDA+DNN 0.749 0.793 0.770
3 W2V_matrix+TextCNN 0.838 0.866 0.852
4 W2V_matrix+CapsNet 0.896 0.901 0.898
  短文本实验结果
序号 方法 P R F
5 LDA+DNN 0.647 0.662 0.654
6 LDA_matrix+DNN 0.784 0.807 0.795
7 LDA_matrix+CapsNet 0.926 0.933 0.929
8 W2V_cuboid+CNN 0.895 0.913 0.904
9 W2V_cuboid+CapsNet 0.969 0.972 0.970
  长文本实验结果
  模型准确率-迭代次数图
  模型准确率-CV关系
[1] 唐明, 朱磊, 邹显春. 基于Word2Vec的一种文档向量表示[J]. 计算机科学, 2016, 43(6): 214-217.
doi: 10.11896/j.issn.1002-137X.2016.6.043
[1] (Tang Ming, Zhu Lei, Zou Xianchun.Document Vector Representation Based on Word2Vec[J]. Computer Science, 2016, 43(6): 214-217.)
doi: 10.11896/j.issn.1002-137X.2016.6.043
[2] 幸凯. 基于卷积神经网络的文本表示建模方法研究[D]. 武汉: 华中师范大学, 2017.
[2] (Xing Kai.Research on Text Modeling Based on Convolutional Neural Network Approaches[D]. Wuhan: Central China Normal University, 2017.)
[3] 黄磊, 杜昌顺. 基于递归神经网络的文本分类研究[J]. 北京化工大学学报: 自然科学版, 2017, 44(1): 98-104.
[3] (Huang Lei, Du Changshun.Application of Recurrent Neural Networks in Text Classification[J]. Journal of Beijing University of Chemical Technology: Natural Science Edition, 2017, 44(1): 98-104.)
[4] Sabour S, Frosst N, Hinton G E.Dynamic Routing Between Capsules[OL]. arXiv Preprint. arXiv: 1710.09829.
[5] Salton G, Wong A, Yang C S.A Vector Space Model for Automatic Indexing[J]. Communications of the ACM,1975, 18(11): 613-620.
doi: 10.1145/361219.361220
[6] Deerwester S, Dumais S, Furnas G W, et al.Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
doi: 10.1002/(ISSN)1097-4571
[7] Hofmann T.Unsupervised Learning by Probabilistic Latent Semantic Analysis[J]. Machine Learning, 2001, 42(1-2): 177-196.
doi: 10.1023/A:1007617005950
[8] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3(2): 993-1022.
[9] Mikolov T, Chen K, Corrado G, et al.Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint. arXiv: 1301.3781.
[10] Joachims T.Text Categorization with Support Vector Machines: Learning with Many Relevant Features[C]// Proceedings of the 10th European Conference on Machine Learning. 1998: 137-142.
[11] Kim Y.Convolutional Neural Networks for Sentence Classification[OL]. arXiv Preprint. arXiv: 1408.5882.
doi: 10.3115/v1/D14-1181
[12] Kalchbrenner N, Grefenstette E, Blunsom P.A Convolutional Neural Network for Modelling Sentences[OL]. arXiv Preprint. arXiv: 1404.2188.
doi: 10.3115/v1/P14-1062
[13] Liu P, Qiu X, Huang X.Recurrent Neural Network for Text Classification with Multi-Task Learning[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. 2016: 2873-2879.
[14] Joulin A, Grave E, Bojanowski P, et al.Bag of Tricks for Efficient Text Classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. 2016: 427-431.
[15] 崔建明, 刘建明, 廖周宇. 基于SVM算法的文本分类技术研究[J]. 计算机仿真, 2013, 30(2): 299-302.
doi: 10.3969/j.issn.1006-9348.2013.02.069
[15] (Cui Jianming, Liu Jianming, Liao Zhouyu.Research of Text Categorization Based on Support Vector Machine[J]. Computer Simulation, 2013, 30(2): 299-302.)
doi: 10.3969/j.issn.1006-9348.2013.02.069
[16] 李玉鑑, 王影, 冷强奎. 基于最近邻子空间搜索的两类文本分类方法[J]. 计算机工程与科学, 2015, 37(1): 168-172.
doi: 10.3969/j.issn.1007-130X.2015.01.026
[16] (Li Yujian, Wang Ying, Leng Qiangkui.Two-class Text Categorization Using Nearest Subspace Search[J]. Computer Engineering and Science, 2015, 37(1): 168-172.)
doi: 10.3969/j.issn.1007-130X.2015.01.026
[17] 吕超镇, 姬东鸿, 吴飞飞. 基于LDA特征扩展的短文本分类[J]. 计算机工程与应用, 2015, 51(4):123-127.
doi: 10.3778/j.issn.1002-8331.1403-0448
[17] (Lv Chaozhen, Ji Donghong, Wu Feifei.Short Text Classification Based on LDA Feature Extension[J]. Computer Engineering and Applications, 2015, 51(4): 123-127.)
doi: 10.3778/j.issn.1002-8331.1403-0448
[18] 郭东亮, 刘小明, 郑秋生. 基于卷积神经网络的互联网短文本分类方法[J]. 计算机与现代化, 2017(4): 78-81.
doi: 10.3969/j.issn.1006-2475.2017.04.016
[18] (Guo Dongliang, Liu Xiaoming, Zheng Qiusheng.Internet Short-text Classification Method Based on CNNs[J]. Computer and Modernization, 2017(4): 78-81.)
doi: 10.3969/j.issn.1006-2475.2017.04.016
[19] 陈杰, 陈彩, 梁毅. 基于Word2Vec的文档分类方法[J]. 计算机系统应用, 2017, 26(11): 159-164.
doi: 10.15888/j.cnki.csa.006055
[19] (Chen Jie, Chen Cai, Liang Yi.Document Classification Method Based on Word2Vec[J]. Computer Systems & Applications, 2017, 26(11): 159-164.)
doi: 10.15888/j.cnki.csa.006055
[20] 夏从零, 钱涛, 姬东鸿. 基于事件卷积特征的新闻文本分类[J]. 计算机应用研究, 2017, 34(4): 991-994.
doi: 10.3969/j.issn.1001-3695.2017.04.007
[20] (Xia Congling, Qian Tao, Ji Donghong.Event Convolutional Feature Based News Documents Classification[J]. Application Research of Computers, 2017, 34(4): 991-994.)
doi: 10.3969/j.issn.1001-3695.2017.04.007
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[4] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[5] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[6] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[7] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[8] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[9] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[10] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[11] 冯勇,刘洋,徐红艳,王嵘冰,张永刚. 融合近邻评论的GRU商品推荐模型*[J]. 数据分析与知识发现, 2021, 5(3): 78-87.
[12] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[13] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[14] 吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[15] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn