Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (7-8): 97-103     https://doi.org/10.11925/infotech.1003-3513.2015.07.13
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
利用类别引导词的投诉文本分类
胡菊香1, 吕学强1, 刘克会2,3
1 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101;
2 北京理工大学管理与经济学院 北京 100081;
3 北京城市系统工程研究中心 北京 100035
Complaint Text Classification Based on Guiding Words
Hu Juxiang1, Lv Xueqiang1, Liu Kehui2,3
1 Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China;
2 School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;
3 Beijing Research Center of Urban System Engineering, Beijing 100035, China
全文: PDF (3159 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

目的】针对投诉事件文本具有信息量大、非结构化、规律性不强等特点, 当前城市投诉信息管理亟需寻找一种高效的分类方法, 提高管理人员的工作效率。【方法】分析投诉事件特点进而对其进行文本预处理; 借助句法分析器、同义词林, 并通过文档贡献度过滤引导词; 采用TF-IDF计算引导词权重系数, 并以VSM表示, 最后通过SVM对处理后的投诉事件文本进行分类。【结果】在多个类别投诉事件测试文本中, 该方法查准率和查全率平均值达到82.1%和82.3%。【局限】投诉事件文本的稀疏性在一定程度上影响分类结果。【结论】实验证明该方法在投诉事件文本分类中是有效的、可行的, 能够提高投诉文本分类效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] For complaint text has the characteristics of informative, unstructured, weak regularity etc., the current information management of city complaint needs an efficient classification method to improve the efficiency of the management staff.[Methods] Analyze the characteristics of complaints and go for text preprocessing; Then use the parser, synonyms forest, and through the contribution of the document to filter guide word; At last, calculate the guide word weighting coefficients with TF-IDF, use VSM model to represent guide words and use SVM model to classify the complaint text. [Results] In multiple categories of complaint text, the average precision of the method is up to 82.1% and the average recall is up to 82.3%. [Limitations] Thesparsity of complaint text affects the classification results to a certain extent.[Conclusions] The experiment results show that the method is effective and feasible in the text classification of complaints, and it can improve categorization effect of thecomplaint text.

收稿日期: 2015-01-19      出版日期: 2015-08-25
:  TP391.1  
基金资助:

本文系国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号: 61271304)、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号: KZ201311232037)和北京市科学技术研究院创新工程项目"面向智慧城市的公共设施协同管理关键技术研究"(项目编号: PXM2014_17825_000002)的研究成果之一。

通讯作者: 胡菊香, ORCID: 0000-0003-1439-121X, E-mail: xiangxiang.891002@163.com。     E-mail: xiangxiang.891002@163.com
作者简介: 作者贡献声明: 吕学强: 提出研究命题, 提供数据; 胡菊香: 提出研究思路, 设计研究方案、完成实验并分析数据, 起草、撰写论文; 刘克会: 论文修订。
引用本文:   
胡菊香, 吕学强, 刘克会. 利用类别引导词的投诉文本分类[J]. 现代图书情报技术, 2015, 31(7-8): 97-103.
Hu Juxiang, Lv Xueqiang, Liu Kehui. Complaint Text Classification Based on Guiding Words. New Technology of Library and Information Service, 2015, 31(7-8): 97-103.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.07.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I7-8/97

[1] 杨柳, 殷钊, 滕建斌, 等.改进贝叶斯分类的智能短信分类方法[J].计算机科学, 2014, 41(10): 31-35.(Yang Liu, Yin Zhao, Teng Jianbin, et al. Intelligent SMS Classification Method Based on Improved Bayes Classification Algorithm[J].Computer Science, 2014, 41(10): 31-35.)
[2] 苑迪文.基于 KNN 的专利文本分类算法研究[D]. 焦作: 河南理工大学, 2012.(Yuan Diwen. Research of Patent Text Classification Algorithm Based on KNN[D]. Jiaozuo: Henan Polytechnic University, 2012.)
[3] Basu A, Walters C, Shepherd M. Support Vector Machines for Text Categorization [C]. In: Proceedings of the 36th Annual Hawaii International Conference on System Sciences. IEEE, 2003.
[4] 何国辉, 吴礼发.基于机器学习的文本分类技术的研究[J].计算机与现代化, 2009, 8(8): 4-6.(He Guohui, Wu Lifa. Research on Text Categorization Based on Machine[J].Computer and Modernization, 2009, 8(8): 4-6.)
[5] 王鹏, 樊兴华.中文文本分类中利用依存关系的实验研究[J].计算机工程与应用, 2010, 46(3): 131-133.(Wang Peng, Fan Xinghua. Study on Chinese Text Classification Based on Dependency Relation [J].Computer Engineering and Applications, 2010, 46(3): 131-133.)
[6] 韩永峰, 郭志刚, 陈翰, 等.基于领域特征词的突发事件层次分类方法[J].信息工程大学学报, 2012, 13(5):593-600.(Han Yongfeng, Guo Zhigang, Chen Han, et al. Hierarchical Text Classification of Emergency Events Based on Domain Features[J]. Journal of Information Engineering University, 2012, 13(5): 593-600.)
[7] 夏海峰, 陈军华.基于文本挖掘的投诉热点智能分类[J]. 上海师范大学学报: 自然科学版, 2013, 42 (5): 470-475.(Xia Haifeng, Chen Junhua. Hot Complaint Intelligent Classification Based on Text Mining[J].Journal of Shanghai Normal University: Natural Sciences, 2013, 42(5): 470-475.)
[8] Yoon Y, Lee G G. Two Scalable Algorithms for Associative Text Classification[J]. Information Processing & Management, 2013, 49(2): 484-496.
[9] Chi N, Lin K, Hsieh S. Using Ontology-based Text Classification to Assist Job Hazard Analysis[J]. Advanced Engineering Informatics, 2014, 28(4): 381-394.
[10] Javed K, Maruf S, Babri H A. A Two-stage Markov Blanket Based Feature Selection Algorithm for Text Classification[J]. Neurocomputing, 2015, 157: 91-104.
[11] ICTCLAS [EB/OL].[2014-07-28].http://ictclas.nlpir.org/.
[12] 语言云(语言技术平台云LTP-Cloud)[EB/OL].[2014-09-20].http://www.ltp-cloud.com/.(LTP-Cloud[EB/OL].[2014-09-20].http://www.ltp-cloud.com/.)
[13] 李太白.短文本分类中特征选择算法的研究[D]. 重庆: 重庆师范大学, 2013.(Li Taibai. Research of Feature Selection Algorithm in Short Text Classification[D]. Chongqing: Chongqing Normal University, 2013.)
[14] 汪廷华, 田盛丰, 黄厚宽.特征加权支持向量机[J].电子与信息学报, 2009, 31(3): 514-518.(Wang Tinghua, Tian Shengfeng, Huang Houkuan. Feature Weighted Support Vector Machine [J]. Journal of Electronics & Information Technology, 2009, 31(3): 514-518.)
[15] 施聪莺, 徐朝军, 杨晓江.TFIDF 算法研究综述 [J].计算机应用, 2009, 29(6): 167-170.(Shi Congying, Xu Chaojun, Yang Xiaojiang. Study of TFIDF Algorithm [J]. Journal of Computer Applications, 2009, 29(6): 167-170.)
[16] 高金勇, 徐朝军, 冯奕竸.基于迭代的TFIDF在短文本分类中的应用[J].情报理论与实践, 2011, 34(6): 120-122.(Gao Jinyong, Xu Chaojun, Feng Yijing. Application of the Iteration-based TFIDF in Short Text Classification[J].Information Studies: Theory & Application, 2011, 34(6): 120-122.)
[17] 宗成庆.统计自然语言处理[M].北京: 清华大学出版社, 2008.(Zong Chengqing. Statistical Natural Language Processing [M]. Beijing: Tsinghua University Press, 2008.)
[18] 苏金树, 张博锋, 徐昕.基于机器学习的文本分类技术研究进展[J].软件学报, 2006, 17(9): 1848-1859.(Su Jinshu, Zhang Bofeng, Xu Xin. Advance in Machine Learning Based Text Categorization[J]. Journal of Software, 2006, 17(9): 1848-1859.)
[19] Vapnik V. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995.
[20] 张启蕊, 董守斌, 张凌.文本分类的性能评估指标[J].广西师范大学学报: 自然科学版, 2007, 25(2): 119-122.(Zhang Qirui, Dong Shoubin, Zhang Ling.Performance Evaluation in Text Classification[J].Journal of Guangxi Normal University: Natural Science Edition, 2007, 25(2): 119-122.)

[1] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[2] 刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述 [J]. 数据分析与知识发现, 0, (): 1-.
[3] 叶光辉, 徐彤, 毕崇武, 李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析 [J]. 数据分析与知识发现, 0, (): 1-.
[4] 刘婧茹, 宋阳, 贾睿, 张翼鹏, 罗勇, 马敬东. 基于BiLSTM-CRF中文临床文本中受保护的健康信息识别 [J]. 数据分析与知识发现, 0, (): 0-.
[5] 石磊,王毅,成颖,魏瑞斌. 自然语言处理中的注意力机制研究综述*[J]. 数据分析与知识发现, 2020, 4(5): 1-14.
[6] 刘萍,彭小芳. 基于形式概念分析的词汇相似度计算*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
[7] 刘书瑞,田继东,陈普春,赖立,宋国杰. 基于文本数据的过滤式与嵌入式样本选择算法*[J]. 数据分析与知识发现, 2020, 4(2/3): 223-230.
[8] 徐建民,张丽青,王苗. 基于贝叶斯网络的静态话题追踪模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 200-206.
[9] 谭荧,张进,夏立新. 社交媒体情境下的情感分析研究综述[J]. 数据分析与知识发现, 2020, 4(1): 1-11.
[10] 聂卉,何欢. 引入词向量的隐性特征识别研究*[J]. 数据分析与知识发现, 2020, 4(1): 99-110.
[11] 李博诚,张云秋,杨铠西. 面向微博商品评论的情感标签抽取研究 *[J]. 数据分析与知识发现, 2019, 3(9): 115-123.
[12] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[13] 余传明, 龚雨田, 王峰, 安璐. 基于文本价格融合模型的股票趋势预测*[J]. 数据分析与知识发现, 2018, 2(12): 33-42.
[14] 曾子明, 杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59.
[15] 贾隆嘉, 张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn