Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (2): 64-73    DOI: 10.11925/infotech.2096-3467.2017.0929
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于空间自相关的网络舆情话题演化时空规律分析*
王璟琦1,李锐1,2(),吴华意1,2
1(武汉大学测绘遥感信息工程国家重点实验室 武汉 430079)
2(地球空间信息技术协同创新中心 武汉 430079)
The Evolution of Online Public Opinion Based on Spatial Autocorrelation
Jingqi Wang1,Rui Li1,2(),Huayi Wu1,2
1(State Key Laboratory of Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China)
2(Collaborative Innovation Center of Geospatial Technology, Wuhan 430079, China)
全文: PDF(2194 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 

目的】研究网络舆情话题演化中存在的时空分布规律, 正确把握网络舆情的发展态势。【方法】基于LDA模型提取网络舆情话题并定义话题强度定量测度指标; 基于空间自相关理论分析不同区域话题强度空间分布及其时间变化规律, 并采用Moran’s I统计量对空间聚集性进行度量; 以“旅游”话题为例, 研究网络舆情话题演化的时空规律。【结果】网络舆情话题强度的空间分布具有聚集性, 聚集性随话题强度的升高而增强, 表现为全局Moran’s I统计量随话题强度的升高而升高, 并且存在话题强度的局部热点区域和异常高值与低值。【局限】数据来源较为单一, 研究结果的普适性有待提升。【结论】本文提出的网络舆情话题演化定量分析方法, 可以有效挖掘网络舆情话题演化的时空规律, 为舆情监测预警提供更为科学的决策支持。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王璟琦
李锐
吴华意
关键词 空间自相关Moran’s I统计量LDA模型话题演化网络舆情    
Abstract

[Objective] This paper aims to investigate the evolution of online public opinion by analyzing the spatial-temporal distribution patterns of topic evolution. [Methods] First, we used the LDA model to extract topics from news and then calculated the quantitative topic intensity index to measure their popularity. Second, we adopted spatial autocorrelation method to examine the distribution of topic intensity on “tourism” as well as its changes over time based on Moran’s I Index. [Results] The global distribution of topic intensity was clustered and characterized by the global Moran’s I index. The local distribution of topic intensity had hot spots, abnormal high values and low values. [Limitations] Only collected data from Xinhuanet, which might yield in-complete results. [Conclusions] The proposed method could effectively extract the spatial-temporal patterns of online public opinion, which improves the decision-making and early warning mechanism.

Key wordsSpatial Autocorrelation    Moran’s I Index    LDA Model    Topic Evolution    Internet Public Opinion
收稿日期: 2017-09-18     
基金资助:*本文系国家重点研发计划项目“全空间信息系统建模理论”(项目编号: 2016YFB0502301)、国家自然科学基金资助项目“云GIS中区域特征的用户行为研究及服务资源需求预测”(项目编号: 41771426)和测绘遥感信息工程国家重点实验室专项科研经费资助的研究成果之一
引用本文:   
王璟琦,李锐,吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
Jingqi Wang,Rui Li,Huayi Wu. The Evolution of Online Public Opinion Based on Spatial Autocorrelation. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2017.0929.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0929
图1  每小时内的数据量分布图
话题编号 话题名称 话题特征词
5 原油市场 原油 建议 操作 行情 市场 美国 止损 目标 油价 数据
6 食品安全 食品 产品 消费者 生产 销售 安全 市场 召回 餐饮 质量
9 党风党纪 问题 干部 违规 党员 监督 书记 单位 纪委 中央 纪律
11 楼市 房地产 城市 市场 政策 楼市 调控 房价 价格 住房 限购
12 扶贫 工作 扶贫 建设 发展 群众 开展 改革 落实 脱贫 社会
15 犯罪 犯罪 法院 案件 机关 法律 公安 诈骗 执行 电信 工作
16 道路交通 交通 记者 小区 道路 车辆 施工 进行 工程 建筑 市民
17 旅游 游客 旅游 景区 机场 交通 公园 公交 出行 线路 旅客
20 金融市场 公司 市场 企业 金融 投资 中国 银行 增长 行业 资金
22 教育 学生 教育 学校 高校 大学生 大学 教师 培训 学院 毕业生
表1  舆情话题及特征词汇集提取结果
图2  旅游话题强度时间序列图(2016年)
时间段 日期 节假日时间段
t1 9.12-9.14 中秋节前
t2 9.15-9.18 中秋节
t3 9.19-9-22 中秋节后
t4 9.23-9.30 国庆节前
t5 10.1-10.8 国庆节
t6 10.9-10.16 国庆节后
表2  时间段划分(2016年)
时间段 t1 t2 t3 t4 t5 t6
全局Moran’s I 0.0826 0.1164 0.1544 0.1119 0.1275 0.0769
Z-score 6.63 9.31 12.34 8.94 10.16 6.18
P-Value 0 0 0 0 0 0
表3  全局统计量及检验值
图3  各时间段话题强度局部聚集类型分布图
聚集类型 t1 t2 t3 t4 t5 t6
HH 66 89 113 101 113 71
HL 28 30 24 33 41 30
LH 3 3 8 9 8 15
LL 0 0 0 0 0 0
Not Significant 2 382 2 357 2 334 2 336 2 317 2 363
表4  聚集区域数量统计表
[1] 朱恒民, 苏新宁, 张相斌, 等. 互联网舆情演化的动态网络模型研究[J]. 情报理论与实践, 2010, 33(10): 75-78.
(Zhu Hengmin, Su Xinning, Zhang Xiangbin, et al.The Evolution Analysis of Online Public Opinion Based on Dynamic Network Model[J]. Information Studies: Theory & Application, 2010, 33(10): 75-78.)
[2] 洪宇, 张宇, 刘挺, 等. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报, 2007, 21(6): 71-87.
doi: 10.3969/j.issn.1003-0077.2007.06.011
(Hong Yu, Zhang Yu, Liu Ting, et al.Topic Detection and Tracking Review[J]. Journal of Chinese Information Processing, 2007, 21(6): 71-87.)
[3] 林萍, 黄卫东. 基于LDA模型的网络舆情事件话题演化分析[J]. 情报杂志, 2013, 32(12): 26-30.
(Lin Ping, Huang Weidong.Event Topic Evolution of Network Public Opinions: An Analysis Based on LDA Model[J]. Journal of Intelligence, 2013, 32(12): 26-30.)
[4] 王来华, 张丽红. 略论舆情空间[J]. 理论与现代化, 2008(3): 91-94.
(Wang Laihua, Zhang Lihong.Public Opinion Space[J]. Theory and Modernization, 2008 (3): 91-94.)
[5] Sanderson M, Kohler J.Analyzing Geographic Queries[C]// Proceedings of SIGIR Workshop on Geographic Information Retrieval.2004.
[6] 万源. 基于语义统计分析的网络舆情挖掘技术研究[D]. 武汉: 武汉理工大学, 2012.
(Wan Yuan.Research on Mining of Internet Public Opinion Based on Semantic and Statistic Analysis [D]. Wuhan: Wuhan University of Technology, 2012.)
[7] 蒋锴. 含地理位置信息的社交媒体挖掘及应用[D]. 合肥: 中国科学技术大学, 2014.
(Jiang Kai.Geo-referenced Social Media Mining and Its Application [D]. Hefei: University of Science and Technology of China, 2014.)
[8] 王劲峰, 葛咏, 李连发, 等. 地理学时空数据分析方法[J]. 地理学报, 2014, 69(9): 1326-1345.
doi: 10.11821/dlxb201409007
(Wang Jinfeng, Ge Yong, Li Lianfa, et al.Spatiotemporal Data Analysis in Geography[J]. Acta Geographica Sinica, 2014, 69(9): 1326-1345.)
[9] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[10] 单斌, 李芳. 基于LDA话题演化研究方法综述[J]. 中文信息学报, 2010, 24(6): 43-49, 68.
doi: 10.3969/j.issn.1003-0077.2010.06.007
(Shan Bin, Li Fang.A Survey of Topic Evolution Based on LDA[J]. Journal of Chinese Information Processing, 2010, 24(6): 43-49, 68.)
[11] 赵爱华, 刘培玉, 郑燕. 基于LDA的新闻话题子话题划分方法[J]. 小型微型计算机系统, 2013, 34(4): 732-737.
(Zhao Aihua, Liu Peiyu, Zheng Yan.Subtopic Division in News Topic Based on Latent Dirichlet Allocation[J]. Journal of Chinese Computer Systems, 2013, 34(4): 732-737.)
[12] 王少鹏, 彭岩, 王洁, 等. 基于LDA的文本聚类在网络舆情分析中的应用研究[J]. 山东大学学报: 理学版, 2014, 49(9): 129-134.
(Wang Shaopeng, Peng Yan, Wang Jie, et al.Research of the Text Clustering Based on LDA Using in Network Public Opinion Analysis[J]. Journal of Shandong University: Natural Science, 2014, 49(9): 129-134.)
[13] 史剑虹, 陈兴蜀, 王文贤. 基于隐主题分析的中文微博话题发现[J]. 计算机应用研究, 2014, 31(3): 700-704.
(Shi Jianhong, Chen Xingshu, Wang Wenxian.Discovering Topic from Chinese Microblog Based on Hidden Topics Analysis[J]. Application Research of Computers, 2014, 31(3): 700-704.)
[14] 曹丽娜, 唐锡晋. BBS话题的地理分布分析[J]. 系统科学与数学, 2016, 36(5): 671-682.
(Cao Li’na, Tang Xijin.Analysis of Topics Distribution in Geography Based on BBS[J]. Journal of Systems Science and Mathematical Sciences, 2016, 36(5): 671-682.)
[15] 王艳东, 李昊, 王腾, 等. 基于社交媒体的突发事件应急信息挖掘与分析[J]. 武汉大学学报: 信息科学版, 2016, 41(3): 290-297.
doi: 10.13203/j.whugis20140804
(Wang Yandong, Li Hao, Wang Teng, et al.The Mining and Analysis of Emergency Information in Sudden Events Based on Social Media[J]. Geomatics and Information Science of Wuhan University, 2016, 41(3): 290-297.)
[16] 陈涛, 林杰. 基于搜索引擎关注度的网络舆情时空演化比较分析——以谷歌趋势和百度指数比较为例[J]. 情报杂志, 2013, 32(3): 7-10, 16.
(Chen Tao, Lin Jie.Comparative Analysis of Temporal-Spatial Evolution of Online Public Opinion Based on Search Engine Attention — Cases of Google Trends and Baidu Index[J]. Journal of Intelligence, 2013, 32(3): 7-10, 16.)
[17] 刘国巍, 程国辉, 姜金贵, 等. 时空分异视角下非常规突发事件网络舆情演化研究——以“上海12.31踩踏事件”为例[J]. 情报杂志, 2015, 34(6): 126-130, 150.
doi: 10.3969/j.issn.1002-1965.2015.06.023
(Liu Guowei, Cheng Guohui, Jiang Jingui, et al.On the Evolution of the Unconventional Emergency Network Public Opinion from the Perspective of Spatial-temporal Differentiation — Taking “Shanghai 12.31 Stampede” as an Example[J]. Journal of Intelligence, 2015, 34(6): 126-130, 150.)
[18] Heinrich G.Parameter Estimation for Text Analysis [R]. vsonix GmbH and University of Leipzig, 2008.
[19] 崔凯. 基于LDA的主题演化研究与实现[D]. 长沙: 国防科学技术大学, 2010.
(Cui Kai.The Research and Implementation of Topic Evolution Based on LDA [D]. Changsha: National University of Defense Technology, 2010.)
[20] Odland J.Spatial Autocorrelation[M]. London: SAGE Publications, 1988.
[21] 秦昆. GIS空间分析理论与方法[M]. 第二版. 武汉: 武汉大学出版社, 2010.
(Qin Kun.Theories and Methods of Spatial Analysis in GIS [M]. The 2nd Edition. Wuhan: Wuhan University Press, 2010.)
[22] 宋雪娟. 西安市住宅价格空间分异与时空演变规律分析[D]. 西安: 陕西师范大学, 2011.
(Song Xuejuan.Spatial and Temporal Evolution Analysis of Housing Prices in Xi’an[D]. Xi’an: Shaanix Normal University, 2011.)
[23] Anselin L.Local Indicators of Spatial Association—LISA[J]. Geographical Analysis, 1995, 27(2): 93-115.
doi: 10.1111/j.1538-4632.1995.tb00338.x
[24] 张华平. NLPIR汉语分词系统[EB/OL]. [2016-08-17]. .
(Zhang Huaping. NLPIR Chinese Word Segmentation System [EB/OL]. [2016-08-17].
[25] 中华人民共和国国家统计局. 最新县及县以上行政区划代码(截止2016年7月31日)[DB/OL]. [2016-08-17]. .
(National Bureau of Statistics of China. Code of Administrative Divisions of County Level or above (by July 31, 2016) [DB/OL]. [2016-08-17].
[26] ESRI. ArcGIS[EB/OL]. [2016-08-01]. .
[1] 李真,丁晟春,王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[2] 王晰巍,张柳,李师萌,王楠阿雪. 新媒体环境下社会公益网络舆情传播研究* ——以新浪微博“画出生命线”话题为例[J]. 数据分析与知识发现, 2017, 1(6): 93-101.
[3] 方小飞,黄孝喜,王荣波,谌志群,王小华. 基于LDA模型的移动投诉文本热点话题识别*[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
[4] 杨小平,马奇凤,余力,莫雨婷,吴佳楠,张悦. 评论簇在网络舆论中的情感倾向代表性研究*[J]. 现代图书情报技术, 2016, 32(7-8): 51-59.
[5] 吴鹏,金贝贝,强韶华. 基于BDI-Agent模型的突发事件网络舆情应急响应建模研究*[J]. 现代图书情报技术, 2016, 32(7-8): 32-41.
[6] 丁晟春,龚思兰,李红梅. 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究*[J]. 现代图书情报技术, 2016, 32(7-8): 12-20.
[7] 张磊,马静,李丹丹,沈洋. 语义社会网络的超网络模型构建及关键节点自动化识别方法研究*[J]. 现代图书情报技术, 2016, 32(3): 8-17.
[8] 黄炜,余辉,李岳峰. 国内网络反恐研究的现状、问题和展望*[J]. 现代图书情报技术, 2016, 32(11): 1-10.
[9] 杨如意,刘东苏,李慧. 一种融合外部特征的改进主题模型*[J]. 现代图书情报技术, 2016, 32(1): 48-54.
[10] 吴鹏, 杨爽, 张晶晶, 高庆宁. 突发事件网络舆情中网民群体行为演化的Agent建模与仿真研究[J]. 现代图书情报技术, 2015, 31(7-8): 65-72.
[11] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015, 31(5): 42-49.
[12] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J]. 现代图书情报技术, 2015, 31(2): 78-84.
[13] 张立凡, 赵凯. 媒体干预下带有讨论机制的网络舆情传播模型研究[J]. 现代图书情报技术, 2015, 31(11): 60-67.
[14] 强韶华, 吴鹏. 突发事件网络舆情演变过程中网民群体行为仿真研究[J]. 现代图书情报技术, 2014, 30(6): 71-78.
[15] 李湘东, 廖香鹏, 黄莉. LDA模型下书目信息分类系统的研究与实现[J]. 现代图书情报技术, 2014, 30(5): 18-25.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn