Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (9): 60-67    DOI: 10.11925/infotech.2096-3467.2018.1423
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于类别特征扩展的短文本分类方法研究 *
邵云飞(),刘东苏
西安电子科技大学经济与管理学院 西安 710126
Classifying Short-texts with Class Feature Extension
Yunfei Shao(),Dongsu Liu
School of Economics of Management, Xidian University, Xi’an 710126, China
全文: PDF(462 KB)   HTML ( 14
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】针对短文本分类中的内容稀疏问题, 提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集, 完成对短文本内容及词汇向量表征上的扩充, 并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明, 基于类别特征扩展后的短文本在分类的准确率上提升3%, 在召回率上提升4.1%。【局限】仅使用卷积神经网络进行验证。【结论】基于类别特征扩展的短文本分类方法能够克服短文本分类中的内容稀疏问题, 提高短文本分类的性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
邵云飞
刘东苏
关键词 词向量LDA模型卷积神经网络短文本分类    
Abstract

[Objective] This paper proposes a short text classification method based on category feature extension, aiming to address the issue of sparse content in short texts. [Methods] We used the improved TF-IDF model and LDA topic model to construct the keyword set and topic distribution set, which were all based on category features. Then, we expanded the content and vector representations of short texts. Finally, we classified short texts with the help of convolutional neural network. [Results] The classification precision rate of the proposed method was improved by 3.0%, and the recall rate was improved by 4.1%. [Limitations] Only examined the new method with convolutional neural network. [Conclusions] The proposed method can improve the effectiveness of categorization procedures for short texts.

Key wordsWord Vector    LDA Model    CNN    Short-Text Classification
收稿日期: 2018-12-18     
中图分类号:  G35  
基金资助:*本文系国家自然科学青年基金项目“大规模动态社交网络社团检测算法研究”(项目编号: 71401130)
引用本文:   
邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
Yunfei Shao,Dongsu Liu. Classifying Short-texts with Class Feature Extension. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1423.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1423
图1  基于类别特征扩展的短文本分类方法流程
主题 主题词及概率值
Topic1 上市: 0.064 股票: 0.042 科技: 0.039 散户: 0.021
Topic2 段位: 0.045 战神: 0.042 动作: 0.022 阴阳师: 0.076
··· ··· ··· ··· ···
Topic80 小学生: 0.032 老师: 0.071 发展: 0.069 报考: 0.043
表1  LDA模型主题-词分布
文本类别 训练集数据 测试集数据
体育 3 150 1 350
教育 2 660 1 140
经济 2 100 900
游戏 2 800 1 200
房产 2 590 1 110
表2  实验数据集分布(单位: 条)
图2  LDA困惑度
参数名称 参数设置 参数名称 参数设置
池化方法 1-max pooling Droupout_prob 0.5
卷积核大小 2,3,4 训练次数 10
卷积核个数 100 优化器 AdamOptimizer
Batch_size 128 学习率 0.01
表3  CNN网络参数设置
分类为A类 分类非A类
实际为A类 TP FN
实际非A类 FP TN
表4  分类示意表
图3  基于主题分布集扩展的有效性验证
分类方法 准确率(均值) 召回率(均值) F1值
VSM+KNN 67.3% 65.0% 66.1%
LDA+KNN 60.1% 55.4% 57.7%
TextCNN+预训练词向量 88.3% 87.5% 87.9%
TextCNN+本文扩展向量 91.3% 91.6% 91.4%
表6  分类方法对比实验
图4  TextCNN模型迭代与测试集准确率关系
[1] 王峥, 刘师培, 彭艳兵 . 基于句法决策树和SVM的短文本语境识别模型[J]. 计算机与现代化, 2017(3):13-17.
( Wang Zheng, Liu Shipei, Peng Yanbing . An Essay Context Recognition Model Based on Syntax Decision Tree and SVM Algorithm[J]. Computer and Modernization, 2017(3):13-17.)
[2] 李静梅, 孙丽华, 张巧荣 , 等. 一种文本处理中的朴素贝叶斯分类器[J]. 哈尔滨工程大学学报, 2003,24(1):71-74.
( Li Jingmei, Sun Lihua, Zhang Qiaorong , et al. Application of Navie Bayes Classifier to Text Classification[J]. Journal of Harbin Engineering University, 2003,24(1):71-74.)
[3] 范云杰, 刘怀亮 . 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012(3):47-52.
( Fan Yunjie, Liu Huailiang . Research on Chinese Short Text Classification Based on Wikipedia[J]. New Technology of Library and Information Service, 2012(3):47-52.)
[4] 李湘东, 阮涛, 刘康 . 基于维基百科的多种类型文献自动分类研究[J]. 数据分析与知识发现, 2017,1(10):43-52.
( Li Xiangdong, Ruan Tao, Liu Kang . Research on Automatic Classification of Various Documents Based on Wikipedia[J]. Data Analysis and Knowledge Discovery, 2017,1(10):43-52.)
[5] 丁连红, 孙斌, 张宏伟 . 基于知识图谱扩展的短文本分类方法[J]. 情报工程, 2018,4(5):38-46.
( Ding Lianhong, Sun Bin, Zhang Hongwei . Short Text Classification Based on Knowledge Graph Extension[J]. Technology Intelligence Engineering, 2018,4(5):38-46.)
[6] Fan X, Hu H. A New Model for Chinese Short-text Classification Considering Feature Extension [C]// Proceedings of the 2010 International Conference on Artificial Intelligence and Computational Intelligence. 2010,2:7-11.
[7] 袁满, 欧阳元新, 熊璋 , 等. 一种基于频繁词集的短文本特征扩展方法[J]. 东南大学学报: 自然科学版, 2014,44(2):256-260.
( Yuan Man, Ouyang Yuanxin, Xiong Zhang , et al. Short Text Feature Extension Method Based on Frequent Term Sets[J]. Journal of Southeast University: Natural Science Edition, 2014,44(2):256-260.)
[8] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[9] 吕超镇, 姬东鸿, 吴飞飞 . 基于LDA特征扩展的短文本分类[J]. 计算机工程与应用, 2015,51(4):123-127.
( Lv Chaozhen, Ji Donghong, Wu Feifei . Short Text Classification Based on Expanding Feature of LDA[J]. Computer Engineering and Applications, 2015,51(4):123-127.)
[10] 胡勇军, 江嘉欣, 常会友 . 基于LDA高频词扩展的中文短文本分类[J]. 现代图书情报技术, 2013(6):42-48.
( Hu Yongjun, Jiang Jiaxin, Chang Huiyou . A New Method of Keywords Extraction for Chinese Short Text Classification[J]. New Technology of Library and Information Service, 2013(6):42-48.)
[11] 张群, 王红军, 王伦文 . 词向量与LDA相融合的短文本分类方法[J]. 现代图书情报技术, 2016(12):27-35.
( Zhang Qun, Wang Hongjun, Wang Lunwen . Classifying Short Texts with Word Embedding and LDA Model[J]. New Technology of Library and Information Service, 2016(12):27-35.)
[12] 雷朔, 刘旭敏, 徐维祥 . 基于词向量特征扩展的中文短文本分类研究[J]. 计算机应用与软件, 2018,35(8):269-274.
( Lei Shuo, Liu Xumin, Xu Weixiang . Chinese Short Text Classification Based on Word Vector Extension[J]. Computer Applications and Software, 2018,35(8):269-274.)
[13] 覃世安, 李法运 . 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10):27-30.
( Qin Shian, Li Fayun . Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10):27-30.)
[14] Kim Y . Convolutional Neural Networks for Sentence Classification[OL]. arXiv Preprint, arXiv: 1408. 5882.
[15] GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation (LDA) Using Gibbs Sampling for Parameter Estimation and Inference[EB/OL]. [2016-05-15].https://sourceforge.net/projects/jgibblda/.
[16] 黄贤英, 熊李媛, 刘英涛 , 等. 基于类别特征改进的KNN短文本分类算法[J]. 计算机工程与科学, 2018,40(1):148-154.
( Huang Xianying, Xiong Liyuan, Liu Yingtao , et al. An Improved KNN Short Text Classification Algorithm Based on Category Feature Words[J]. Computer Engineering & Science, 2018,40(1):148-154.)
[1] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[2] 俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 *[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[3] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[4] 文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[5] 刘勘,陈露. 面向医疗分诊的深度神经网络学习*[J]. 数据分析与知识发现, 2019, 3(6): 99-108.
[6] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[7] 张佩瑶,刘东苏. 基于词向量和BTM的短文本话题演化分析*[J]. 数据分析与知识发现, 2019, 3(3): 95-101.
[8] 李慧,柴亚青. 基于卷积神经网络的细粒度情感分析方法*[J]. 数据分析与知识发现, 2019, 3(1): 95-103.
[9] 徐月梅,吕思凝,蔡连侨,张小娅. 结合卷积神经网络和Topic2Vec的新闻主题演变分析*[J]. 数据分析与知识发现, 2018, 2(9): 31-41.
[10] 何跃,丰月,赵书朋,马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[11] 徐艳华,苗雨洁,苗琳,吕学强. 基于LDA模型的HSK作文生成*[J]. 数据分析与知识发现, 2018, 2(9): 80-87.
[12] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[13] 王璟琦,李锐,吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[14] 黄孝喜,李晗雨,王荣波,王小华,谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[15] 胡家珩,岑咏华,吴承尧. 基于深度学习的领域情感词典自动构建*——以金融领域为例[J]. 数据分析与知识发现, 2018, 2(10): 95-102.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn