%A 方小飞, 黄孝喜, 王荣波, 谌志群, 王小华 %T 基于LDA模型的移动投诉文本热点话题识别* %0 Journal Article %D 2017 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2017.02.03 %P 19-27 %V 1 %N 2 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4318.shtml} %8 2017-02-25 %X

目的】运用中文信息处理和话题识别与追踪的方法, 从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手, 使用k-means先对文本聚类。利用LDA对每个类进行建模, 提取话题, 并从词频、词跨度和词长三方面计算每个话题中词的权值, 把权重最大的词作为该话题的标签, 并计算每个话题的文档分布概率均值。对具有相同标签的话题, 先按照均值最大的原则去掉重复标签话题, 再对所有话题计算文档支持率, 并将文档支持率作为话题的热度, 通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模, 通过对比一般话题和热点话题, 得出热点话题的支持文档率至少是一般话题的3倍, 支持文档率变化趋势也比一般话题高, 说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的, 对今后此领域的研究具有一定的借鉴意义。