Please wait a minute...
Data Analysis and Knowledge Discovery  2017, Vol. 1 Issue (2): 19-27    DOI: 10.11925/infotech.2096-3467.2017.02.03
Orginal Article Current Issue | Archive | Adv Search |
Identifying Hot Topics from Mobile Complaint Texts
Fang Xiaofei1, Huang Xiaoxi1(), Wang Rongbo1, Chen Zhiqun1, Wang Xiaohua1,2
1Department of Computer Science, Hangzhou Dianzi University, Hangzhou 310018, China
2China Jiliang University, Hangzhou 310018, China
Download: PDF (726 KB)   HTML ( 35
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper aims to extract valuable information from large amount of complaint texts with the help of Chinese message processing technologies. [Methods] First, we analyzed the characteristics of the complaint texts, and then clustered them by k-means algorithm. Second, we extracted topics from the texts of each category with the LDA model. In the mean time, we calculated the weight of the word of each topic, as well as the mean of document probability distribution. Third, we analyzed topics with the highest means and used the document supporting rates to identify the trending ones. [Results] The document supporting rates of the topics extracted by this study was three times higher than the average ones. [Limitations] We did not investigate the semantic relationship among the topics. [Conclusions] The LDA model is an effective method to detect hot topics of the mobile complaints and indicates some future studies.

Key wordsMobile Complaints      k-means      Topic Detection      LDA Model     
Received: 10 November 2016      Published: 27 March 2017
ZTFLH:  TP391  

Cite this article:

Fang Xiaofei,Huang Xiaoxi,Wang Rongbo,Chen Zhiqun,Wang Xiaohua. Identifying Hot Topics from Mobile Complaint Texts. Data Analysis and Knowledge Discovery, 2017, 1(2): 19-27.

URL:

http://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2017.02.03     OR     http://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2017/V1/I2/19

模型 扩张方式 实现方式 优势 局限性
LDA[1] 直接使用 无需监督 主题挖掘不理想
基于用户聚集LDA[3] 过程扩展 文本聚集 解决短文本问题 只限微博用户层面建模, 需要人工干预
基于训练USER模式[4] 过程扩展 文本聚集、
分步求解
解决短文本问题,
简化推导
需要事先训练和人工干预, 若要更新
模型需重新训练基
ATM[5] 模型扩展 文本聚集 解决短文本问题 只限微博用户层面主题建模
ATM扩展模型[12] 模型扩展 文本聚集 解决短文本问题 帖子层面主题少且不理想
Twitter-LDA[6, 13] 模型扩展 文本聚集,
引入背景模型
解决短文本问题和高频
词汇问题
一个帖子只能对应一个主题
Labeled-LDA[7, 14] 模型扩展 引入标签信息 提高主题可解释性 要求文本具有足够的标签信息
MB-LDA[8] 模型扩展 引入结构化信息 解决短文本问题, 提高
主题可解释性
主要针对会话类和转发类中文微博
HLDA[9] 模型扩展 引入微博评论数、
转发数等特征量
提高主题可解释性 主要针对具有高评论数和转发数的微博
MA-LDA[10] 模型扩展 引入时间特征 解决短文本问题, 提高
主题可解释性
主要适应于短时间内被普遍关注的微博
词语 词频 词性
短信费用 1 000 n(名词)
欠费停机 2 000 n
上网费用 2 000 n
有线宽带 2 000 n
畅玩游戏包 500 n
爱动漫信息费 3 000 n
夜间流量 28 641 n
原始
文本
诉求: 用户来电表示自己的手机(18067938538 )自己很少上网, 为什么在(2015-03 )月份的手机上会超出(210.38 )兆的上网流量,