%A 卓可秋, 虞为, 苏新宁 %T 突发事件检测的MapReduce并行化实现 %0 Journal Article %D 2015 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2015.02.07 %P 46-54 %V 31 %N 2 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4013.shtml} %8 2015-02-25 %X

[目的] 在大数据环境下, 从文本流中准确且快速地检测出特定领域的突发事件。[方法] 利用Kleinberg突发检测方法和LDA 主题模型方法, 将其扩展到MapReduce 并行框架中, 实现并行语料预处理、并行突发词检测、并行突发文档过滤和并行主题提取。[结果] 对新闻文本流进行模拟仿真实验, 结果表明, 该并行方法在特定领域突发事件检测中准确率P、召回率R 和调和平均值F 分别最高可达87.50%、77.78%和82.35%。[局限] 基于MapReduce 的并行方法难以实现大规模动态文本流在线(Online)实时(Real-time)突发事件检测。[结论] 与传统串行突发事件检测方法相比, 所构建的分布式并行化方法在保证检测结果正确性的同时, 具有良好的可扩展性, 性能得到较大提升。