Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (2): 90-101    DOI: 10.11925/infotech.1003-3513.2016.02.12
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
基于地理坐标的微博事件检测与分析*
李进华(),安仲杰
华中师范大学信息管理学院 武汉 430079
Analyzing Geographical Coordinates Data for Micro-blog Trending Events
Li Jinhua(),An Zhongjie
School of Information Management, Central China Normal University, Wuhan 430079, China
全文: PDF(2829 KB)   HTML ( 47
输出: BibTeX | EndNote (RIS)      
摘要 

目的】利用数据挖掘算法, 从海量繁杂的微博数据中检测出有价值的事件信息。【方法】针对国内具有代表性的微博网站, 通过使用微博网络开放接口高效收集带有地理坐标的微博数据。使用K-means、KNN和决策树三种数据挖掘算法, 根据微博数据的发布数、转发数、评论数、用户活跃度和移动强度5个指标构建微博的地理规律性特征。将日常地区性的微博数据特征与该地区微博特征的地理规律性进行比较, 从而检测出该区域是否有事件发生。【结果】以2015年4月15日、16日的微博数据作为测试语料, 使用文中提出的微博事件检测框架, 成功检测到“北京沙尘暴”事件。【局限】在抽取微博地理规律性特征时, 采用的样本数据偏少, 一定程度上影响了事件检测框架的效果。【结论】基于地理坐标的微博事件检测框架是切实有效的, 分析出的事件信息不仅可以帮助用户获取感兴趣的事件资讯, 而且可以协助政府部门进行舆情管控和行政决策。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李进华
安仲杰
关键词 微博事件检测可视化分析地理坐标分析    
Abstract

[Objective] This study aims to retrieve the trending events from the micro-blog platform with the help of data mining algorithms. [Methods] First, we collected micro-blog message with geographic coordinates from the most popular platform (the Sina Weibo) using its API service. Then, we used the K-means, KNN and decision trees algorithms to construct the geographical patterns of those collected posts. The number of published posts, re-tweets, and comments, as well as user activity and movement strength were also examined. Third, we compared these geographical patterns with the daily regional micro-blog data to identify breaking news in that area. [Results] We analyzed data collected on April 15 and April 16 of 2015 with the help of the proposed model, and found a trending event of “Beijing Sandstorm”. [Limitations] The sample size was small, which might influence the results. [Conclusions] Geographic coordinates could help us detect trending events on the Sina Weibo, and this new method will also support the government’s crisis management strategy and decision-making process.

Key wordsMicro-blog    Event detection    Visualization analysis    Geographical coordinates analysis
收稿日期: 2015-09-24     
基金资助:*本文系国家社会科学基金项目“语义网络环境下面向数字化科研的分布式知识发现研究”(项目编号:11BTQ040)和华中师范大学中央高校基本科研业务费专项资金项目“基于统计本体学习方法的文本领域本体自动抽取与演化研究”(项目编号:CCNU13A05048)的研究成果之一
引用本文:   
李进华,安仲杰. 基于地理坐标的微博事件检测与分析*[J]. 现代图书情报技术, 2016, 32(2): 90-101.
Li Jinhua,An Zhongjie. Analyzing Geographical Coordinates Data for Micro-blog Trending Events. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2016.02.12.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.02.12
[1] 胡吉明. 社会化网络服务的开放运行架构及服务拓展研究[J]. 情报科学, 2012, 30(9): 1396-1400.
[1] (Hu Jiming.Study on Open Operation Architecture and Service Expansion of Social Network Service[J]. Information Science, 2012, 30(9): 1396-1400.)
[2] 李彪. 微博意见领袖群体“肖像素描”——以40个微博事件中的意见领袖为例[J]. 新闻记者, 2012(9):19-25.
[2] (Li Biao.The “Portrait Sketch” of Microblogging Opinion Leaders Group——Take 40 Opinion Leaders from Microblogs as an Example[J]. Journalism Review, 2012(09): 19-25.)
[3] 杨亮, 林原, 林鸿飞. 基于情感分布的微博热点事件发现[J]. 中文信息学报, 2012, 26(1):84-90.
[3] (Yang Liang, Lin Yuan, Lin Hongfei.Micro-Blog Hot Events Detection Based on Emotion Distribution[J]. Journal of Chinese Information Processing, 2012, 26(1): 84-90.)
[4] 王林, 时勘, 赵杨, 等. 基于突发事件的微博集群行为舆情感知实验[J]. 情报杂志, 2013, 32(5): 32-37.
[4] (Wang Lin, Shi Kan, Zhao Yang, et al.Experimental Studies on Public Opinion Perception of the Micro Blog’s Collective Behavior Based on the Emergencies[J]. Journal of Intelligence, 2013, 32(5): 32-37.)
[5] 杨娟娟, 杨兰蓉, 曾润喜, 等. 公共安全事件中政务微博网络舆情传播规律研究——基于“上海发布”的实证[J]. 情报杂志, 2013, 32(9):11-15.
[5] (Yang Juanjuan, Yang Lanrong, Zeng Runxi, et al.Research on Communication Mechanism of Internet Public Opinion of Government Affairs Microblog in Public Security Events: A Case Study of the “Shanghai Fabu”[J]. Journal of Intelligence, 2013, 32(9): 11-15.)
[6] 兰月新. 突发事件微博舆情扩散规律模型研究[J]. 情报科学, 2013, 31(3): 31-34.
[6] (Lan Yuexin.Research on Microblog Opinion Diffusion Model of Emergent Events[J]. Information Science, 2013, 31(3): 31-34.)
[7] 王勇, 肖诗斌, 郭跇秀, 等. 中文微博突发事件检测研究[J]. 现代图书情报技术, 2013(2): 57-62.
[7] (Wang Yong, Xiao Shibin, Guo Yixiu, et al.Research on Chinese Micro-blog Bursty Topics Detection[J]. New Technology of Library and Information Service, 2013(2): 57-62.)
[8] 陈国兰. 基于爆发词识别的微博突发事件监测方法研究[J]. 情报杂志, 2014, 33(9): 123-128.
[8] (Chen Guolan.Micro-blog Emergencies Detection Approach Based on Burst Words Distinguishing[J]. Journal of Intelligence, 2014, 33(9): 123-128.)
[9] 刘志明, 刘鲁. 微博网络舆情中的意见领袖识别及分析[J]. 系统工程, 2011, 29(6): 8-16.
[9] (Liu Zhiming, Liu Lu.Recognition and Analysis of Opinion Leaders in Microblog Public Opinions[J]. Systems Engineering, 2011, 29(6): 8-16.)
[10] 魏志惠, 何跃. 基于信息熵和未确知测度模型的微博意见领袖识别——以“甘肃庆阳校车突发事件”为例[J]. 情报科学, 2014, 32(10): 38-43.
[10] (Wei Zhihui, He Yue.Identify Microblogging Opinion Leaders Based on Information Entropy and Unascertained Measure Model——Taking “Emergencies of Qingyang School Bus” as an Example[J]. Information Science, 2014, 32(10): 38-43.)
[11] 田野. 基于微博平台的事件趋势分析及预测研究[D]. 武汉: 武汉大学, 2012.
[11] (Tian Ye.On Trends Analysis and Prediction Based on Micro-Blogging Platforms [D]. Wuhan: Wuhan University, 2012.)
[12] Yang Y, Carbonell J, Brown R.Multi-Strategy Learning for Topic Detection and Tracking [A]. // Topic Detection and Tracking[M]. Springer, 2002: 85-114.
[13] 冯永, 韩楠, 贾东风. 云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪[J]. 计算机应用, 2013, 33(12): 3559-3562.
[13] (Feng Yong, Han Nan, Jia Dongfeng.Microblog Events Detection and Tracking with Incremental Hierarchical DBSCAN Based on Representative Posts Using Cloud Framework[J]. Journal of Computer Applications, 2013, 33(12): 3559-3562.)
[14] 王连喜. 微博短文本预处理及学习研究综述[J]. 图书情报工作, 2013, 57(11):125-131.
[14] (Wang Lianxi.A Literature Review on Pre-processing and Learning of Microtext[J]. Library and Information Service, 2013, 57(11): 125-131.)
[15] Fu C, Samet H, Sankaranarayanan J.WeiboStand: Capturing Chinese Breaking News Using Weibo “Tweets” [C]. In: Proceedings of the 7th ACM SIGSPATIAL Workshop on Location-Based Social Networks. 2014.
[16] 王锋. 灾难性事件中的“微”力量——青海玉树地震中微博应用探析[J]. 新闻世界, 2010(S2): 149-150.
[16] (Wang Feng.“Micro” Forces of the Catastrophic Event——Qinghai Yushu Weibo Application Analysis in the Earthquake[J]. News World, 2010(S2): 149-150.)
[17] Zhang P.Social Inclusion or Exclusion? When Weibo (Microblogging) Meets the “New Generation” of Rural Migrant Workers[J]. Library Trends, 2013, 62(1):63-80.
[18] 微博数据中心. 2014年微博用户发展报告[R/OL]. [2015- 02-06]. .
[18] (Weibo Data Center. The 2014 Report of Weibo Users Development [R/OL]. [2015-02-06].
[19] 吴夙慧, 成颖, 郑彦宁, 等. K-means算法研究综述[J]. 现代图书情报技术, 2011(5): 28-35.
[19] (Wu Suhui, Cheng Ying, Zheng Yanning, et al.Survey on K-means Algorithm[J]. New Technology of Library and Information Service, 2011(5): 28-35.)
[20] 亓峰, 刘昆, 张超, 等. 圆和维诺图相交模拟基站覆盖算法[J]. 北京邮电大学学报, 2014, 37(S1): 108-114.
[20] (Qi Feng, Liu Kun, Zhang Chao, et al.A Novel Base Station Coverage Simulation Based on Intersection of Circle and Voronoi[J]. Journal of Beijing University of Posts and Telecommunications, 2014, 37(S1): 108-114.)
[21] 江涛, 陈小莉, 张玉芳, 等. 基于聚类算法的KNN文本分类算法研究[J]. 计算机工程与应用, 2009, 45(7): 153-158.
[21] (Jiang Tao, Chen Xiaoli, Zhang Yufang, et al.Improved KNN Using Clustering Algorithm[J]. Computer Engineering and Applications, 2009, 45(7): 153-158.)
[22] 陆安生, 陈永强, 屠浩文. 决策树C5算法的分析与应用[J]. 电脑知识与技术, 2005(3): 17-20.
[22] (Lu Ansheng, Chen Yongqiang, Tu Haowen.The Analysis and Application of Decision Tree Algorithm of C5[J]. Computer Knowledge and Technology, 2005(3): 17-20.)
[23] 迟呈英, 李红. 基于改进TF*PDF算法的网络新闻热点话题检测和跟踪[J]. 计算机应用与软件, 2013, 30(12): 311-314.
[23] (Chi Chengying, Li Hong.Network News Hot Topics Detection and Tracking Based on Modified TF*PDF Algorithm[J]. Computer Applications and Software, 2013, 30(12): 311-314.)
[24] 谢科范, 赵湜, 陈刚, 等. 网络舆情突发事件的生命周期原理及集群决策研究[J]. 武汉理工大学学报: 社会科学版, 2010, 23(4): 482-486.
[24] (Xie Kefan, Zhao Shi, Chen Gang, et al.Research on Lifecycle Principle and Group Decision- making of Network Public Sentiment Emergency[J]. Journal of Wuhan University of Technology: Social Sciences Edition, 2010, 23(4): 482-486.)
[25] Narayanam R, Narahari Y.A Shapley Value-based Approach to Discover Influential Nodes in Social Networks[J]. IEEE Transactions on Automation Science and Engineering, 2011, 8(1): 130-147.
[26] 陈吉荣, 乐嘉锦. 基于Hadoop生态系统的大数据解决方案综述[J]. 计算机工程与科学, 2013, 35(10): 25-35.
[26] (Chen Jirong, Le Jiajin.Reviewing the Big Data Solution Based on Hadoop Ecosystem[J]. Computer Engineering & Science, 2013, 35(10): 25-35.)
[1] 安璐,梁艳平. 突发公共卫生事件微博话题与用户行为选择研究*[J]. 数据分析与知识发现, 2019, 3(4): 33-41.
[2] 赵明清,武圣强. 基于微博情感分析的股市加权预测方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 43-51.
[3] 曾子明,杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59.
[4] 高永兵,杨贵朋,张娣,马占飞. 基于突显词博文聚类的官微事件检测方法*[J]. 数据分析与知识发现, 2017, 1(9): 57-64.
[5] 何跃,朱灿. 基于微博的意见领袖网情感特征分析*——以“非法疫苗”事件为例[J]. 数据分析与知识发现, 2017, 1(9): 65-73.
[6] 敦欣卉,张云秋,杨铠西. 基于微博的细粒度情感分析[J]. 数据分析与知识发现, 2017, 1(7): 61-72.
[7] 祁瑞华. 基于依存关系的中文微博作者性别识别*[J]. 数据分析与知识发现, 2017, 1(2): 58-63.
[8] 杨爽,陈芬. 基于SVM多特征融合的微博情感多级分类研究*[J]. 数据分析与知识发现, 2017, 1(2): 73-79.
[9] 丁晟春,龚思兰,李红梅. 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究*[J]. 现代图书情报技术, 2016, 32(7-8): 12-20.
[10] 姚兆旭,马静. 面向微博话题的“主题+观点”词条抽取算法研究*[J]. 现代图书情报技术, 2016, 32(7-8): 78-86.
[11] 杨爱东,刘东苏. 基于Hadoop的微博舆情监控系统模型研究[J]. 现代图书情报技术, 2016, 32(5): 56-63.
[12] 朱玲,薛春香,章成志,傅柱. 微博用户标签与博文内容相关度研究*[J]. 现代图书情报技术, 2016, 32(3): 18-24.
[13] 孙赫,李淑琴,吕学强,刘克会. 微博城市投诉文本中地理位置实体的完整性研究*[J]. 现代图书情报技术, 2016, 32(3): 58-66.
[14] 陈东沂,周子程,蒋盛益,王连喜,吴佳林. 面向企业微博的客户细分框架*[J]. 现代图书情报技术, 2016, 32(2): 43-51.
[15] 兰月新, 董希琳, 苏国强, 瞿志凯. 大数据背景下微博舆情信息交互模型研究[J]. 现代图书情报技术, 2015, 31(5): 24-33.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn