%A 冯国明, 张晓冬, 刘素辉 %T 基于CapsNet的中文文本分类研究* %0 Journal Article %D 2018 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2018.0391 %P 68-76 %V 2 %N 12 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4590.shtml} %8 2018-12-25 %X

【目的】解决长文本的表示问题并将CapsNet应用于中文文本分类任务中, 提高分类精度。【方法】针对长文本提出LDA矩阵和词向量体表示法, 并结合CapsNet提出基于CapsNet的中文文本分类模型。以搜狗新闻语料与复旦大学文本分类语料作为实验数据, 将TextCNN、DNN等模型作为对比对象进行文本分类实验与分析。【结果】CapsNet模型在中文文本分类的各评价指标上均优于其他模型, 在5类短文本、长文本分类中准确率分别达89.6%、96.9%, 且收敛速度比CNN模型快近两倍。【局限】模型计算时间复杂度高, 实验语料规模受限。【结论】本文方法和CapsNet模型在中文文本分类中相对于已有方法有更好的准确率、收敛速度和鲁棒性。