基于LDA模型的移动投诉文本热点话题识别*
方小飞, 黄孝喜, 王荣波, 谌志群, 王小华

Identifying Hot Topics from Mobile Complaint Texts
Fang Xiaofei,Huang Xiaoxi,Wang Rongbo,Chen Zhiqun,Wang Xiaohua
表1 LDA话题模型建模方法比较[2]
模型 扩张方式 实现方式 优势 局限性
LDA[1] 直接使用 无需监督 主题挖掘不理想
基于用户聚集LDA[3] 过程扩展 文本聚集 解决短文本问题 只限微博用户层面建模, 需要人工干预
基于训练USER模式[4] 过程扩展 文本聚集、
分步求解
解决短文本问题,
简化推导
需要事先训练和人工干预, 若要更新
模型需重新训练基
ATM[5] 模型扩展 文本聚集 解决短文本问题 只限微博用户层面主题建模
ATM扩展模型[12] 模型扩展 文本聚集 解决短文本问题 帖子层面主题少且不理想
Twitter-LDA[6, 13] 模型扩展 文本聚集,
引入背景模型
解决短文本问题和高频
词汇问题
一个帖子只能对应一个主题
Labeled-LDA[7, 14] 模型扩展 引入标签信息 提高主题可解释性 要求文本具有足够的标签信息
MB-LDA[8] 模型扩展 引入结构化信息 解决短文本问题, 提高
主题可解释性
主要针对会话类和转发类中文微博
HLDA[9] 模型扩展 引入微博评论数、
转发数等特征量
提高主题可解释性 主要针对具有高评论数和转发数的微博
MA-LDA[10] 模型扩展 引入时间特征 解决短文本问题, 提高
主题可解释性
主要适应于短时间内被普遍关注的微博