%A 丁晟春,龚思兰,李红梅 %T 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究* %0 Journal Article %D 2016 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2016.07.03 %P 12-20 %V 32 %N 7-8 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4247.shtml} %8 2016-08-25 %X

目的】实时、准确、高效地检测出海量微博中的突发事件, 为舆情应急管理提供重要的决策信息支持。【方法】引入参照时间窗机制, 设计词频、文档频率、话题标签(Hashtag)、词频增长率4类特征的选择与计算方法, 基于动态阈值实现对突发主题词的抽取。在此基础上, 将微博文本表示为突发主题词的特征向量, 使用凝聚式层次聚类算法实现了突发事件的检测。【结果】将实验结果结合实例进行分析, 突发事件检测达到80%的准确率, 验证该方法的可行性和有效性。【局限】由于语料数据和研究范围的限制, 还未实现对所检测突发事件的自动描述, 对网民情感、事件间语义关系等要素的分析及考量也存在一定欠缺。【结论】本研究突破以往相关研究中文本内容质量、文本形式、突发特征抽取结果的局限, 提升微博突发事件检测的效率。