Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (9): 60-67     https://doi.org/10.11925/infotech.2096-3467.2018.1423
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于类别特征扩展的短文本分类方法研究 *
邵云飞(),刘东苏
西安电子科技大学经济与管理学院 西安 710126
Classifying Short-texts with Class Feature Extension
Yunfei Shao(),Dongsu Liu
School of Economics of Management, Xidian University, Xi’an 710126, China
全文: PDF (462 KB)   HTML ( 17
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】针对短文本分类中的内容稀疏问题, 提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集, 完成对短文本内容及词汇向量表征上的扩充, 并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明, 基于类别特征扩展后的短文本在分类的准确率上提升3%, 在召回率上提升4.1%。【局限】仅使用卷积神经网络进行验证。【结论】基于类别特征扩展的短文本分类方法能够克服短文本分类中的内容稀疏问题, 提高短文本分类的性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
邵云飞
刘东苏
关键词 词向量LDA模型卷积神经网络短文本分类    
Abstract

[Objective] This paper proposes a short text classification method based on category feature extension, aiming to address the issue of sparse content in short texts. [Methods] We used the improved TF-IDF model and LDA topic model to construct the keyword set and topic distribution set, which were all based on category features. Then, we expanded the content and vector representations of short texts. Finally, we classified short texts with the help of convolutional neural network. [Results] The classification precision rate of the proposed method was improved by 3.0%, and the recall rate was improved by 4.1%. [Limitations] Only examined the new method with convolutional neural network. [Conclusions] The proposed method can improve the effectiveness of categorization procedures for short texts.

Key wordsWord Vector    LDA Model    CNN    Short-Text Classification
收稿日期: 2018-12-18      出版日期: 2019-10-23
ZTFLH:  G35  
基金资助:*本文系国家自然科学青年基金项目“大规模动态社交网络社团检测算法研究”(项目编号: 71401130)
引用本文:   
邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
Yunfei Shao,Dongsu Liu. Classifying Short-texts with Class Feature Extension. Data Analysis and Knowledge Discovery, 2019, 3(9): 60-67.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1423      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I9/60
  基于类别特征扩展的短文本分类方法流程
主题 主题词及概率值
Topic1 上市: 0.064 股票: 0.042 科技: 0.039 散户: 0.021
Topic2 段位: 0.045 战神: 0.042 动作: 0.022 阴阳师: 0.076
··· ··· ··· ··· ···
Topic80 小学生: 0.032 老师: 0.071 发展: 0.069 报考: 0.043
  LDA模型主题-词分布
文本类别 训练集数据 测试集数据
体育 3 150 1 350
教育 2 660 1 140
经济 2 100 900
游戏 2 800 1 200
房产 2 590 1 110
  实验数据集分布(单位: 条)
  LDA困惑度
参数名称 参数设置 参数名称 参数设置
池化方法 1-max pooling Droupout_prob 0.5
卷积核大小 2,3,4 训练次数 10
卷积核个数 100 优化器 AdamOptimizer
Batch_size 128 学习率 0.01
  CNN网络参数设置
分类为A类 分类非A类
实际为A类 TP FN
实际非A类 FP TN
  分类示意表
  基于主题分布集扩展的有效性验证
分类方法 准确率(均值) 召回率(均值) F1值
VSM+KNN 67.3% 65.0% 66.1%
LDA+KNN 60.1% 55.4% 57.7%
TextCNN+预训练词向量 88.3% 87.5% 87.9%
TextCNN+本文扩展向量 91.3% 91.6% 91.4%
  分类方法对比实验
  TextCNN模型迭代与测试集准确率关系
[1] 王峥, 刘师培, 彭艳兵 . 基于句法决策树和SVM的短文本语境识别模型[J]. 计算机与现代化, 2017(3):13-17.
[1] ( Wang Zheng, Liu Shipei, Peng Yanbing . An Essay Context Recognition Model Based on Syntax Decision Tree and SVM Algorithm[J]. Computer and Modernization, 2017(3):13-17.)
[2] 李静梅, 孙丽华, 张巧荣 , 等. 一种文本处理中的朴素贝叶斯分类器[J]. 哈尔滨工程大学学报, 2003,24(1):71-74.
[2] ( Li Jingmei, Sun Lihua, Zhang Qiaorong , et al. Application of Navie Bayes Classifier to Text Classification[J]. Journal of Harbin Engineering University, 2003,24(1):71-74.)
[3] 范云杰, 刘怀亮 . 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012(3):47-52.
[3] ( Fan Yunjie, Liu Huailiang . Research on Chinese Short Text Classification Based on Wikipedia[J]. New Technology of Library and Information Service, 2012(3):47-52.)
[4] 李湘东, 阮涛, 刘康 . 基于维基百科的多种类型文献自动分类研究[J]. 数据分析与知识发现, 2017,1(10):43-52.
[4] ( Li Xiangdong, Ruan Tao, Liu Kang . Research on Automatic Classification of Various Documents Based on Wikipedia[J]. Data Analysis and Knowledge Discovery, 2017,1(10):43-52.)
[5] 丁连红, 孙斌, 张宏伟 . 基于知识图谱扩展的短文本分类方法[J]. 情报工程, 2018,4(5):38-46.
[5] ( Ding Lianhong, Sun Bin, Zhang Hongwei . Short Text Classification Based on Knowledge Graph Extension[J]. Technology Intelligence Engineering, 2018,4(5):38-46.)
[6] Fan X, Hu H. A New Model for Chinese Short-text Classification Considering Feature Extension [C]// Proceedings of the 2010 International Conference on Artificial Intelligence and Computational Intelligence. 2010,2:7-11.
[7] 袁满, 欧阳元新, 熊璋 , 等. 一种基于频繁词集的短文本特征扩展方法[J]. 东南大学学报: 自然科学版, 2014,44(2):256-260.
[7] ( Yuan Man, Ouyang Yuanxin, Xiong Zhang , et al. Short Text Feature Extension Method Based on Frequent Term Sets[J]. Journal of Southeast University: Natural Science Edition, 2014,44(2):256-260.)
[8] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[9] 吕超镇, 姬东鸿, 吴飞飞 . 基于LDA特征扩展的短文本分类[J]. 计算机工程与应用, 2015,51(4):123-127.
[9] ( Lv Chaozhen, Ji Donghong, Wu Feifei . Short Text Classification Based on Expanding Feature of LDA[J]. Computer Engineering and Applications, 2015,51(4):123-127.)
[10] 胡勇军, 江嘉欣, 常会友 . 基于LDA高频词扩展的中文短文本分类[J]. 现代图书情报技术, 2013(6):42-48.
[10] ( Hu Yongjun, Jiang Jiaxin, Chang Huiyou . A New Method of Keywords Extraction for Chinese Short Text Classification[J]. New Technology of Library and Information Service, 2013(6):42-48.)
[11] 张群, 王红军, 王伦文 . 词向量与LDA相融合的短文本分类方法[J]. 现代图书情报技术, 2016(12):27-35.
[11] ( Zhang Qun, Wang Hongjun, Wang Lunwen . Classifying Short Texts with Word Embedding and LDA Model[J]. New Technology of Library and Information Service, 2016(12):27-35.)
[12] 雷朔, 刘旭敏, 徐维祥 . 基于词向量特征扩展的中文短文本分类研究[J]. 计算机应用与软件, 2018,35(8):269-274.
[12] ( Lei Shuo, Liu Xumin, Xu Weixiang . Chinese Short Text Classification Based on Word Vector Extension[J]. Computer Applications and Software, 2018,35(8):269-274.)
[13] 覃世安, 李法运 . 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10):27-30.
[13] ( Qin Shian, Li Fayun . Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10):27-30.)
[14] Kim Y . Convolutional Neural Networks for Sentence Classification[OL]. arXiv Preprint, arXiv: 1408. 5882.
[15] GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation (LDA) Using Gibbs Sampling for Parameter Estimation and Inference[EB/OL]. [2016-05-15].https://sourceforge.net/projects/jgibblda/.
[16] 黄贤英, 熊李媛, 刘英涛 , 等. 基于类别特征改进的KNN短文本分类算法[J]. 计算机工程与科学, 2018,40(1):148-154.
[16] ( Huang Xianying, Xiong Liyuan, Liu Yingtao , et al. An Improved KNN Short Text Classification Algorithm Based on Category Feature Words[J]. Computer Engineering & Science, 2018,40(1):148-154.)
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[3] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[4] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[5] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[6] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[7] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[8] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[9] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[10] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[11] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[12] 刘伟江,魏海,运天鹤. 基于卷积神经网络的客户信用评估模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 80-90.
[13] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[14] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[15] 向菲,谢耀谈. 基于混合采样与迁移学习的患者评论识别模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 39-47.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn