邹伟: 设计研究方案, 分析数据, 撰写论文;
刘永学: 提出研究思路(网络爬虫部分), 对拟发表文章作最后审阅及定稿;
李满春: 提出研究思路(中文分词部分、数据分析部分);
王加胜: 设计研究方案, 采集和清洗数据;
陈映雪: 设计研究方案, 负责最终论文修订。
2012年4月10日, 借与美国进行代号“肩并肩”大规模联合军演之机, 菲律宾海军在南海中沙群岛黄岩岛附近抓扣我国渔民, 被赶到的中国海监船制止, 双方随后发生对峙。这一事件的发生, 加剧了南海局势的紧张, 将两国间的岛礁之争推向一个高潮[ 1]。
随着互联网的快速发展, 网络成为继电视、广播、报纸之后的“第四媒体”。截至2012年12月底, 我国网民规模达到5.64亿, 全年共计新增网民5 090万人[ 2], 网络已成为反映社会热点的主要载体。2012年“中菲黄岩岛争端”事件正是由于网络的存在, 形成了庞大的网络新闻信息, 使大众能及时、有效地获取与事件有关的信息, 对菲律宾造成强大的舆论压力。因此, 如何快速地获取网络新闻数据、如何有效地分析网络新闻中的舆情信息情况、如何准确地研究事件过程中各方的事态变化规律, 对当前的网络数据研究提出了更高的要求。
本文以黄岩岛争端的网络新闻数据为对象, 采用网络爬虫、中文分词、词频统计等方法, 建立黄岩岛争端事件中的新闻要素数据库, 辅以数理统计等手段, 探索黄岩岛争端事件的舆情变化过程及其驱动机制。
随着互联网的快速发展, 如何在海量网络数据中挖掘热点事件并分析其变化情况, 对于热点事件的研究至关重要。
在国内的研究中, 利用Web挖掘技术进行主题追踪的舆情分析成为近年研究的热点。赵华等根据新闻报道的特点, 提出了基于内容分析的热点发现算法, 将话题分为标识中心向量和内容中心向量, 把含有相似核心内容的话题区分开来[ 3]。王伟等构建了基于聚类的网络舆情热点发现及分析系统, 主要是根据对网络舆情分析的需求, 利用向量空间模型, 并且通过二次聚类使网络舆情分析更为准确可靠[ 4]。童亚拉等提出了基于群智能的热点发现算法, 将群智能技术与舆情文本方面的数据挖掘相结合, 把舆情信息挖掘进行了广度和深度上的延伸, 解决了传统算法在热点发现上存在滞后性的缺点[ 5]。任海果为实现主题事件的舆情分析, 研究了主题事件的追踪技术, 设计出基于主题事件的舆情分析系统, 实现了对热点事件的发现、演化和趋势分析[ 6]。
在国外, 网络舆情的热点发现也是研究的重点项目之一, 并且取得了显著的效果。国外舆情研究起步很早, 最有名的当属美国的话题检测与追踪项目(Topic Detection and Tracking)[ 7]。该项目进行算法研究, 使人们在面对当前爆发式增长的信息时, 能够对当前的主流热门话题进行自动识别和对已知话题进行跟踪。
近几年, 国外的网络舆情热点研究则主要针对社交网站、博客、新闻等主流媒介平台进行。Li等提出基于本体的意见领袖识别框架对社交博客上的舆情信息进行意见挖掘[ 8]。马里兰大学开发的BlogVox可以在检索到相关博客文章后, 计算文章含有主观意见的概率并据此排序[ 9]。Neri等研究了1 000个关于意大利公共广播服务意见的Facebook网站, 得到了观众的关注度和兴趣度, 并在开源情报信息和Web挖掘中得到应用[ 10]。
(1) 数据源
国内主流门户网站均提供新闻平台, 在这些门户网站中, 新浪网凭借其出色的网络新闻平台独树一帜。其新闻栏目是国内起步早、用户多、流量大的新闻平台[ 11], 报道以信息量大、时效性强、严谨而权威等特点著称[ 12], 在著名的Alexa网站的全球各类网站排名中名列17位[ 13]。本文选择新浪网“中菲黄岩岛争端”专题[ 14]作为实证研究数据源, 说明如表1所示:
![]() | 表1 研究数据源说明 |
(2) 数据定义
事件舆情分析有效与否在于能否合理提取新闻中的主要信息。研究采用国际关系研究中对事件的定义和描述——绝大部分信息是行为体之间“谁对谁做了什么”(who did what to whom)的互动行为[ 15], 即获取新闻数据中的事件挑起者、事件承受者、事件对象、事件内容和事件时间等新闻要素信息, 如表2所示。通过对这些新闻要素的分析, 实现争端事件的舆情研究。
![]() | 表2 数据定义示例 |
针对网络新闻数据的特点, 研究流程分为三个部分: 数据获取、数据处理和数据分析, 如图1所示:
数据获取部分, 使用网络爬虫及结构化信息提取工具快速获取网络新闻的新闻信息, 包括新闻标题、来源(作者)、发表时间、新闻内容等, 建立新闻信息数据库。数据处理部分, 使用中文分词工具, 将新闻信息拆分成最小的语义单位, 根据定义的关键词词典, 提取新闻数据中的主要信息(对于不完整信息进行手动修正, 如表2中的“12日”修正为“2012年4月12日”等); 其次, 根据数据定义的要求, 将提取的主要信息人工筛选并标识成新闻要素数据(事件挑起者、事件承受者、事件对象、事件内容和事件时间), 并导入数据库生成新闻要素数据库。数据分析部分, 使用数理统计及数据分析软件进行舆情变化过程分析和舆情网络分析, 揭示争端事件的变化趋势及驱动机制。
在这一研究流程中, 主要涉及到网络爬虫、中文分词等关键技术。
(1) 网络爬虫
网络爬虫(Web Crawler)是能够自动下载网页的程序[ 17]。使用网络爬虫工具可以有效快速地获取网页数据, 生成相应的数据库, 便于后期的数据处理。研究采用成熟的网络爬虫软件LocoySpider[ 18]进行网页新闻数据的采集。根据数据源网址的排序和组合规律, 对爬虫软件设置起始URL、符合采集要求的URL正则表达式等约束, 来获取原始网页信息; 其次, 根据网页源码中带有链接的标记如< a >、< img >、< area >、< frame >等情况, 在爬虫软件中构建提取网页信息的结构化表达式, 进行结构化信息提取。
(2) 中文分词
对文本进行分词是数据处理的重点, 目前最常用的中文分词技术为字符串匹配分词方法和基于统计的分词方法。根据新闻内容的特点及数据定义要求, 研究采用成熟便捷的盘古分词软件[ 19]进行争端事件新闻内容的分词。该软件的主要功能包括中文分词、词性输出、停用词过滤等, 同时支持词典管理。盘古分词软件在单线程下的分词速度为390KB/s, 双线程分词速度为 690KB/s。
为了更加有效地揭示中菲黄岩岛争端的情况, 本研究从全局和局部两个方面进行分析。全局分析以事件的整个变化过程作为研究对象, 分析随时间的推进, 争端事件的事件数量变化及其变化特点; 在局部分析中, 主要构建争端事件的事件要素(事件挑起者、事件对象、事件内容)网络, 通过网络度等参数进行中菲黄岩岛争端事件的驱动机制分析。
(1) 舆情变化过程分析
中菲黄岩岛争端事件的舆情变化过程分析建立在新闻要素数据库的基础上, 针对事件挑起者和事件时间等事件要素进行分析研究。分析主要使用数理统计工具对每天的争端事件进行数量统计, 并绘制成图表便于舆情变化的分析。此外, 根据网络事件建构的不同阶段及事件数量的整体平均水平与峰值情况, 对中菲黄岩岛争端事件进行阶段划分, 进一步分析争端事件的发展态势。
(2) 舆情网络分析
中菲黄岩岛争端事件的舆情网络分析根据数据处理中得到的新闻要素数据库, 从中菲双方立场出发, 分析各项有关黄岩岛争端的举措的情况及相互间的联系。以事件挑起者为对象, 使用Gephi软件[ 20]对事件对象、事件内容进行分析, 并采用该软件提供的Yifan Hu方法[ 21]进行对象布局, 构建了中菲黄岩岛争端事件的中方事件舆情网络情况及菲方事件舆情网络情况。此外, 针对中菲双方的舆情网络情况, 使用网络度进行两者的网络分析与比较。
网络度(Complex Network Degree)是描述网络中某一节点与其他节点连接程度的概念。本研究中的度是与某个节点有联系的节点总数, 反映了不同对象间的紧密关系。
根据数据库中各条新闻数据的时间要素, 建立从2012年4月11日至2013年2月25日中菲黄岩岛争端事件的舆情变化过程, 如图2所示:
根据网络事件建构的不同阶段(整体平均水平与峰值情况), 中菲黄岩岛争端事件过程大致可以分为5个阶段, 如表3所示:
![]() | 表3 中菲黄岩岛争端事件过程中各阶段情况 |
(1) 第一阶段: 整体舆情处在较低层次, 偶有高值出现。这一阶段中, 争端事件刚刚发生, 网络舆论没有完全形成, 只针对单一问题进行, 如黄岩岛主权归属问题。
(2) 第二阶段: 整体舆情呈现明显的增长, 处在较高的层次。这一阶段中, 争端事件开始扩大, 网络舆论已经形成, 围绕黄岩岛问题国际化、扩大军事援助等多个问题进行较量。
(3) 第三阶段: 整体舆情处在非常高的层次, 并在5月10日左右出现整个争端事件情势的峰值。这一阶段中, 舆论各方经过前期的较量和准备, 逐步达到白热化, 并通过示威游行、问题国际化、寻求国际帮助等多种方式, 将中菲黄岩岛争端无限扩大。
(4) 第四阶段: 整体舆情回归到较低层次, 低于第一阶段的水平。这一阶段中, 中方通过休渔、转移议题等措施挫败菲方阴谋, 舆情趋缓, 局部事件仍有交锋。
(5) 第五阶段: 整体舆情趋于零, 回归常态。从这一阶段开始, 中菲黄岩岛争端事件结束, 舆情消失, 回归至小范围舆论争斗中, 不再有影响力巨大的情势出现。
此外, 结合图2中的整体舆情变化曲线(即图2中蓝色曲线), 其与网络突发事件的生命周期曲线[ 22]相符, 即研究结果中存在网络事件演化的各个阶段: 其中第一阶段为萌动期, 第二阶段为加速期, 第三阶段为成熟期, 第四、五阶段为衰退期, 说明本研究所采用的方法能够有效再现争端事件的情势过程, 划分出的各个阶段也展现出了争端事件舆情变化过程的特征。
本研究根据舆情网络分析的方法, 构建了中菲黄岩岛争端事件的中方事件舆情网络情况及菲方事件舆情网络情况, 分别如图3和图4所示:
(注: 图3和图4中以图案颜色区分事件要素类别, 图案大小表示事件数量, 连接线粗细表示两者间的关联性程度。)
图3中, 就整体分布而言, 中方的主要聚焦对象为“黄岩岛”、“南海”、“菲律宾旅游”、“南海问题”、“反华游行”和“水果进口”等6个方面, 其中“黄岩岛”与政治、军事相关, “南海”、“南海问题”、“反华游行”等与外交相关, “菲律宾旅游”和“水果进口”则与经济相关, 说明中方在处理黄岩岛争端事件的过程中从多个方面出发, 使用军事、外交等手段维护黄岩岛及南海等区域的主权, 同时辅以经济手段, 限制菲律宾的侵权势头。从细节上看, 这6个对象中只有“黄岩岛”对象结构复杂, 且存在多个重点事件内容, 而其他聚焦对象的事件内容分散, 没有侧重, 这表明黄岩岛一直是中方关注的焦点, 同时也是解决问题的关键。另外, 在“黄岩岛”对象的事件内容中, 其重点为“撤出船只”、“进入休渔期”、“外交协商解决”和“发布海洋环境预报”等内容, 这些措施也体现了中方通过实际行动来解决黄岩岛问题, 并维护黄岩岛的权益。
图4中, 从整体上看, 菲方的主要聚焦对象与中方相似, 依次为“黄岩岛”、“南海”、“香蕉出口”和“南海问题”, 这说明菲方也通过政治外交等手段进行黄岩岛争夺并制约中国维护自身权益, 但受制于“香蕉进口”等经济制裁, 使其力不从心。从细节上看, 相对于中方的事件分布情况, 菲方整体事件内容更加分散, 更没有明确的事件重点, 而且“黄岩岛”对象的重点也仅仅为“船只撤出”和“属于中国”, 这表明菲方实力不济, 没有固定的反制措施, 导致其立场不定, 难以真正维持其黄岩岛的侵权行为。
中菲黄岩岛争端事件的网络度情况如表4所示。结合图3、图4及表4可知, 中菲双方的焦点相近, 两者以“黄岩岛”为中心, 从“南海”、“南海问题”、“香蕉出口”等方面展开斗争。但从事件内容的分布上看, 中方的措施相对集中, 形式多样, 且具有明显的针对性, 如经济手段——“香蕉进口”、“菲律宾旅游”等, 具有明显的反制菲律宾的效果(“香蕉进口”在菲方的主要聚焦对象中靠前即是很好的证明); 而菲方的措施则很分散, 没有侧重点, 对于中方也没有形成足够的制约。另外, 在事件的具体内容上, 菲方的言论与态度常有矛盾的用语出现, 而中方则用语一致, 立场坚定, 这说明成功的外交需要合理积极的措施为基础, 才能真正起到维护黄岩岛主权的作用, 即“黄岩岛”、“南海”、“南海问题”的成功解决, 需要“香蕉出口”、“菲律宾旅游”等经济手段的支持和协助。
![]() | 表4 中菲黄岩岛争端事件的网络度情况 |
随着互联网的快速发展, 网络已经成为人们生活的一部分, 反映出人们所关注的热点。本文以新浪网新闻专题为对象, 采用网络爬虫、中文分词等方法, 获取网络新闻数据并提取数据信息, 建立新闻信息数据库和新闻热点数据库。借助数理统计、Gephi软件等手段进行数据分析, 探究了黄岩岛争端事件的舆情变化过程及舆情驱动机制, 实现了通过网络数据分析展现黄岩岛争端情况的目的。
研究结果表明:
(1) 中菲黄岩岛争端事件的过程可分为5个阶段, 其变化过程符合网络舆情突发事件的生命周期曲线, 说明所采用的方法能够有效再现争端事件的舆情过程, 划分出的各个阶段也展现出争端事件舆情变化过程的特征。
(2) 中菲双方黄岩岛争端焦点相近, 采取的措施则各有侧重。争端焦点上, 两方均以“黄岩岛”为中心, 从“南海”、“南海问题”、“香蕉出口”等方面展开斗争。采取措施上, 中方措施相对集中, 形式多样, 具有明显的针对性, 有效地反制了菲律宾; 而菲方措施很分散, 没有侧重点, 反映出菲律宾自身实力不足、立场不坚定的特点。
有效合理分析网络新闻数据, 可以实现黄岩岛争端舆情情况的全面展现, 包括黄岩岛争端的舆情变化过程及驱动机制等情况, 为南海问题乃至热点事件问题的研究提供新的途径与方法。此外, 上述方法也可对国外主流网站、媒体等进行监测与分析, 研究他国的政治、外交动态等, 为南海争端事件及国家重大外交事件的决策与解决提供支持。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|