%A 高永兵, 杨贵朋, 张娣, 马占飞 %T 基于突显词博文聚类的官微事件检测方法* %0 Journal Article %D 2017 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2017.09.06 %P 57-64 %V 1 %N 9 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4421.shtml} %8 2017-09-25 %X

目的】针对官方微博数据存在大量不相关信息的问题, 过滤博文进而检测事件。【方法】利用Word2Vec机器学习模型训练官方微博记录集, 并将博文影响力、词基础权重以及官微相关性相结合, 提出官方微博突显词检测方法, 计算突显词博文的相似度, 利用层次聚类算法对突显词博文聚类后选取合适的突显词描述事件, 从而实现事件检测。【结果】实验结果表明, 与TF-IDF和TextRank算法相比较, 本文的突显词算法在准确率(63.5%)、召回率(85.5%)和F值(73.0%)方面表现更好。【局限】官方微博历史记录太少, 初始的训练会存在数据冷启动问题。【结论】本文方法可以在官方微博博文中有效检测官方微博事件。