Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (9): 57-64     https://doi.org/10.11925/infotech.2096-3467.2017.09.06
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于突显词博文聚类的官微事件检测方法*
高永兵1(), 杨贵朋1, 张娣1, 马占飞2
1内蒙古科技大学信息工程学院 包头 014010
2包头师范学院计算机系 包头 014010
Detecting Events from Official Weibo Profiles Based on Post Clustering with Burst Words
Gao Yongbing1(), Yang Guipeng1, Zhang Di1, Ma Zhanfei2
1School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China
2Department of Computer, Baotou Teachers’ College, Baotou 014010, China;
全文: PDF (961 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】针对官方微博数据存在大量不相关信息的问题, 过滤博文进而检测事件。【方法】利用Word2Vec机器学习模型训练官方微博记录集, 并将博文影响力、词基础权重以及官微相关性相结合, 提出官方微博突显词检测方法, 计算突显词博文的相似度, 利用层次聚类算法对突显词博文聚类后选取合适的突显词描述事件, 从而实现事件检测。【结果】实验结果表明, 与TF-IDF和TextRank算法相比较, 本文的突显词算法在准确率(63.5%)、召回率(85.5%)和F值(73.0%)方面表现更好。【局限】官方微博历史记录太少, 初始的训练会存在数据冷启动问题。【结论】本文方法可以在官方微博博文中有效检测官方微博事件。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
高永兵
杨贵朋
张娣
马占飞
关键词 官方微博相关词突显词官微事件Word2Vec    
Abstract

[Objective] This paper aims to remove the unrelated information from the official Weibo (micro-blog) profiles, and then retrieves the posts on official events. [Methods] First, we used the word2vec machine learning model to train the official Weibo datasets. Then, we proposed an official micro burst words detection method based on the influence of Weibo posts, the base weight and the related official profiles. Third, we calculated the similarity of blog posts with the burst words, and used hierarchical clustering algorithm to select burst words for the target events. [Results] The proposed algorithm had better precision (63.5%), recall (85.5%) and F values (0.73) than the traditional TF-IDF and TextRank algorithms. [Limitations] The official profiles did not have enough historical data on the events. [Conclusions] The burst words help us detect official events effectively from the official Weibo profiles.

Key wordsOfficial Micro-blog    Related Words    Burst Words    Official Microblog Events    Word2Vec
收稿日期: 2017-04-05      出版日期: 2017-10-18
ZTFLH:  TP391 G35  
基金资助:*本文系国家自然科学基金项目“面向物联网安全的Multi-ISM协同建模及关键技术研究”(项目编号: 61163025)和内蒙古自然科学基金项目“基于个人微博的自动摘要关键技术研究”(项目编号: 2015MS0621)的研究成果之一
引用本文:   
高永兵, 杨贵朋, 张娣, 马占飞. 基于突显词博文聚类的官微事件检测方法*[J]. 数据分析与知识发现, 2017, 1(9): 57-64.
Gao Yongbing,Yang Guipeng,Zhang Di,Ma Zhanfei. Detecting Events from Official Weibo Profiles Based on Post Clustering with Burst Words. Data Analysis and Knowledge Discovery, 2017, 1(9): 57-64.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.09.06      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I9/57
相关词 相关度权值 相关词 相关度权值
北大 0.511464 北京大学第三医院 0.418483
许智宏 0.483764 荣获 0.418440
清华大学 0.470910 生命科学 0.416257
招生办 0.470327 大讲堂 0.416236
深圳 0.468520 展开 0.414171
携手 0.466221 院长 0.411467
揭晓 0.461243 来访 0.409098
代表团 0.451333 团委 0.408964
天文 0.450333 北京大学法学院 0.405279
电视台 0.447696 研究院 0.404885
第一届 0.442393 泰王国 0.404662
代表队 0.440339 物理 0.404421
孔庆东 0.433270 邓宏魁 0.400969
研究生会 0.431442 空间科学 0.398369
6月 0.421351 博雅 0.398264
研究生院 0.420898 学生会 0.397033
  北京大学官微相关度权值
  突显词评价结果
官微事件 事件类描述 突显词博文聚类 日期
屠呦呦获诺奖, 北大师生表示祝贺 屠呦呦 校友诺奖 林建华 校长 北大 医学部 席谈 【林建华校长看望诺贝尔奖获得者屠呦呦校友】10月6日下午, 2015年诺贝尔生理学或医学奖获得者、北京大学校友屠呦呦的家里暖意融融。北大校长林建华一行向屠呦呦校友表示祝贺... 2015-10-7 11: 44: 35
【踏实做事 献身科学——屠呦呦校友获诺奖后医学部师生一席谈】在校友屠呦呦获得诺贝尔奖后, 北大医学部... 2015-10-17 13: 12: 17
空间科学院教授获国家技术发明奖 北大 国家 技术奖 2015 空间科学院 晏磊 #北大新闻#【简讯: 北京大学13项成果喜获2015年度国家科学技术奖】1月8日上午。人民大会堂举行2015年度国家科学技术奖励大会。北京大学... 2016-1-8 18: 28: 49
#科研动态#【地球与空间科学学院晏磊教授获国家技术发明奖二等奖】1月8日, 中共中央、国务院在人民大会堂举行2015年度国家科学技术奖励大会... 2016-1-16 10: 30: 03
总理来访北大 总理 北京大学 朗润园 智库 林建华 校长 母校 光华管理 农园食堂 #总理来啦# 第一站, 克强总理来到位于朗润园的国家发展研究院, 了解北京大学智库建设以及国家发展研究院的发展情况。北京大学校长林建华... 2016-4-15 15: 48: 00
#总理来啦# 第三站, 克强总理来到本科期间(1978-1982年)就读的法学院...光华管理学院的同学们热烈欢迎总理回到母校, 总理与同学们合影留念。 2016-4-15 16: 30: 29
#总理来啦# 夜幕渐渐降临, 克强总理一行来到北京大学农园食堂...克强总理在同学们的簇拥下走出农园食堂... 2016-4-15 20: 09: 01
  官微事件检测结果
  实验结果对比
[1] 戴天, 吴渝, 雷大江. 利用组合模型生成微博热点话题事件摘要[J]. 计算机应用研究, 2016, 33(7): 2026-2029.
[1] (Dai Tian, Wu Yu, Lei Dajiang.Hot Topic Summarization on Microblog Generated by Model Combination[J]. Application Research of Computers, 2016, 33(7): 2026-2029.)
[2] 贺敏, 杜攀, 张瑾, 等. 基于动量模型的微博突发话题检测方法[J]. 计算机研究与发展, 2015, 52(5): 1022-1028.
doi: 10.7544/issn1000-1239.2015.20131549
[2] (He Min, Du Pan, Zhang Jin, et al.Microblog Bursty Topic Detection Method Based on Momentum Model[J]. Journal of Computer Research and Development, 2015, 52(5): 1022-1028.)
doi: 10.7544/issn1000-1239.2015.20131549
[3] 郭跇秀, 吕学强, 李卓. 基于突发词聚类的微博突发事件检测方法[J]. 计算机应用, 2014, 34(2): 486-490.
doi: 10.11772/j.issn.1001-9081.2014.02.0486
[3] (Guo Yixiu, Lyu Xueqiang, Li Zhuo.Bursty Topics Detection Approach on Chinese Microblog Based on Burst Words Clustering[J]. Journal of Computer Applications, 2014, 34(2): 486-490.)
doi: 10.11772/j.issn.1001-9081.2014.02.0486
[4] 童薇, 陈威, 孟小峰. EDM: 高效的微博事件检测算法[J]. 计算机科学与探索, 2012, 6(12): 1076-1086.
doi: 10.3778/j.issn.1673-9418.2012.12.002
[4] (Tong Wei, Chen Wei, Meng Xiaofeng.EDM: An Efficient Algorithm for Event Detection in Microblogs[J]. Journal of Frontiers of Computer Science and Technology, 2012, 6(12): 1076-1086.)
doi: 10.3778/j.issn.1673-9418.2012.12.002
[5] 郑斐然, 苗夺谦, 张志飞, 等. 一种中文微博新闻话题检测的方法[J]. 计算机科学, 2012, 39(1): 138-141.
doi: 10.3969/j.issn.1002-137X.2012.01.031
[5] (Zheng Feiran, Miao Duoqian, Zhang Zhifei, et al.News Topic Detection Approach on Chinese Microblog[J]. Computer Science, 2012, 39(1): 138-141.)
doi: 10.3969/j.issn.1002-137X.2012.01.031
[6] Gorling R.A Preliminary Study of Tweet Summarization Using Information Extraction[C]// Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2013.
[7] Chakrabarti D, Punera K.Event Summarization Using Tweets[C]//Proceedings of the 15th International AAAI Conference on Weblogs and Social Media.2011.
[8] Li C, Sun A, Datta A.Twevent: Segment-based Event Detection from Tweets[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM, 2012: 155-164.
[9] 杨文漪. 面向微博的事件检测算法研究[D]. 北京: 北京邮电大学, 2013.
[9] (Yang Wenyi.Research on Event Detection Algorithm for Microblog[D]. Beijing: Beijing University of Posts and Telecommunications, 2013.)
[10] 宁瑞芳, 欧阳宁, 莫建文. 基于光流法的聚众事件检测[J]. 计算机工程与应用, 2012, 48(3): 198-201.
doi: 10.3778/j.issn.1002-8331.2012.03.059
[10] (Ning Ruifang, Ouyang Ning, Mo Jianwen.Detection of Gathering Events Based on Optical Flow[J]. Computer Engineering and Applications, 2012, 48(3): 198-201.)
doi: 10.3778/j.issn.1002-8331.2012.03.059
[11] 唐明, 朱磊, 邹显春. 基于Word2Vec的一种文档向量表示[J]. 计算机科学, 2016, 43(6): 214-217.
doi: 10.11896/j.issn.1002-137X.2016.6.043
[11] (Tang Ming, Zhu Lei, Zou Xianchun.Document Vector Representation Based on Word2Vec[J]. Computer Science, 2016, 43(6): 214-217.)
doi: 10.11896/j.issn.1002-137X.2016.6.043
[12] Becker H, Naaman M, Gravano L, et al.Selecting Quality Twitter Content for Events[C]//Proceedings of the 15th International AAAI Conference on Weblogs and Social Media.2011.
[13] Duan Y, Chen Z, Wei F, et al.Twitter Topic Summarization by Ranking Tweets Using Social Influence and Content Quality[C]//Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012). 2012: 763-780.
[14] Mihalcea R, Tarau P.TextRank: Bringing Order into Texts[C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language.2004: 404-411.
[15] 余珊珊, 苏锦钿, 李鹏飞. 基于改进的TextRank的自动摘要提取方法[J]. 计算机科学, 2016, 43(6): 240-247.
doi: 10.11896/j.issn.1002-137X.2016.6.048
[15] (Yu Shanshan, Su Jindian, Li Pengfei.Improved TextRank-based Method for Automatic Summarization[J]. Computer Science, 2016, 43(6): 240-247.)
doi: 10.11896/j.issn.1002-137X.2016.6.048
[16] 朱征宇, 孙俊华.改进的基于知网的词汇语义相似度计算[J]. 计算机应用, 2013, 33(8): 2276-2279.
doi: 10.11772/j.issn.1001-9081.2013.08.2276
[16] (Zhu Zhengyu, Sun Junhua.Improved Vocabulary Semantic Similarity Calculation Based on HowNet[J]. Journal of Computer Applications, 2013, 33(8): 2276-2279.)
doi: 10.11772/j.issn.1001-9081.2013.08.2276
[17] 黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 计算机学报, 2011, 34(5): 856-864.
doi: 10.3724/SP.J.1016.2011.00856
[17] (Huang Chenghui, Yin Jian, Hou Fang.A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method[J]. Chinese Journal of Computers, 2011, 34(5): 856-864.)
doi: 10.3724/SP.J.1016.2011.00856
[1] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[2] 叶佳鑫,熊回香,童兆莉,孟秋晴. 在线医疗社区中面向医生的协同标注研究*[J]. 数据分析与知识发现, 2020, 4(6): 118-128.
[3] 岳丽欣,刘自强,胡正银. 面向趋势预测的热点主题演化分析方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 22-34.
[4] 陶兴,张向先,郭顺利,张莉曼. 学术问答社区用户生成内容的W2V-MMR自动摘要方法研究*[J]. 数据分析与知识发现, 2020, 4(4): 109-118.
[5] 叶佳鑫,熊回香,蒋武轩. 一种融合患者咨询文本与决策机理的医生推荐算法*[J]. 数据分析与知识发现, 2020, 4(2/3): 153-164.
[6] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
[7] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[8] 蒋翠清,郭轶博,刘尧. 基于中文社交媒体文本的领域情感词典构建方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 98-107.
[9] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[10] 张琴,郭红梅,张智雄. 融合词嵌入表示特征的实体关系抽取方法研究*[J]. 数据分析与知识发现, 2017, 1(9): 8-15.
[11] 夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[12] 刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波. 基于大数据岗位需求的文本聚类研究*[J]. 数据分析与知识发现, 2017, 1(12): 32-40.
[13] 罗文馨,陈翀,邓思艺. 基于Word2Vec及大众健康信息源的疾病关联探测[J]. 现代图书情报技术, 2016, 32(9): 78-87.
[14] 宁建飞,刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016, 32(6): 20-27.
[15] 张玉连,刘娟,齐峰,周兴林. 基于摘要和日志中相关词共现策略的移动查询扩展*[J]. 现代图书情报技术, 2009, (10): 40-44.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn