互联网新闻报道中的突发事件识别研究
姚占雷, 许鑫
华东师范大学信息学系 上海 200241
摘要

为及时、准确地捕获突发事件,提出词间距的思想,并构建基于互联网新闻报道的突发事件识别模型。该模型主要包括热点词元发现和新词语检测两部分,即通过改进的TF-PDF算法捕获当前关注的词元以形成热点词元,利用词间距来寻找热点词元之间的客观分布状态,从而依据热点词元之间相对稳定的组合达到突发事件识别的目的。实验表明该模型对突发事件的识别,在时间上有着较高的敏感性。

关键词: 事件识别; 热点词元; 词间距
中图分类号:G354
Research on the Detection of Sudden Events in News Stories of Online Information
Yao Zhanlei, Xu Xin
Depatment of Informatics, East China Normal University, Shanghai 200241, China
Abstract

Focusing on how to capture sudden events timely and accurately, this paper introduces an idea of the Distance between two Segmental Words(DSW), and devises a model for detecting the sudden events in Internet news. This model mainly comprises two parts, as generating the Hot Element of Terms(HET) and detecting new words. Specifically, it uses the improved TF-PDF algorithm for capturing the Element of Terms(ET),which concerns to generate the Hot Element of Terms, and seeks the status quo of distribution among these terms based on the Distance between two Segmental Words, then with the relatively stable combination among these terms to achieve event detection. Experiment shows that the model has a high sensitivity on detecting the sudden events.

Keyword: Event detection; Hot element of terms; Distance between two segmental words
1 引 言

随着我国互联网基础设施的完善和网民规模的持续高速增长,人们通过互联网了解国内外时事政治、社会热点的方式变得越来越普遍。然而,由网络信息的内容分散、来源广泛、真伪难辨、高度冗余等特点所带来的信息嘈杂,使得人们获取有用信息的成本在急剧上升。

当前各大门户网站相继推出了相关时政(社会)热点的专题报道,在一定程度上缓解了上述矛盾。然而现有专题报道往往需要大量人员,或参与专题本身的事件辨识,或参与专题报道的分类整理,限制了它的进一步推广与应用。

相关研究表明,与某一事件相关的新闻报道往往集中出现在特定的时间段内。本文在综合特定时间段内的热词和词间距等因素的基础上,构建了突发事件的识别模型,以改变现有专题报道形成的相对滞后的局面。

2 研究现状

新事件检测(New Event Detection,NED)是话题检测与跟踪(Topic Detection and Tracking,TDT)中一项重要子任务,它的早期研究来自于Allan和Papka等,且多采用单遍聚类算法,在提取特征建立待测报道描述的基础上,与所有前期报道描述进行匹配,若匹配获得的相似度都低于设定的阈值,则系统检测到新话题[ 1],Yang等也认为由于一个事件往往涉及诸多报道,文本聚类成为识别它的常用方法[ 2]。因而传统的事件识别多是基于文本聚类实现的,且主要采用Salton等提出的向量空间模型(Vector Space Model,VSM)[ 3]进行文本表示,以TF-IDF权重计算方法为原型,并结合具体研究领域的特点,通过判定文本间或者文本与聚类中心的相似关系(或距离)形成不同的聚类簇,加以实现。Brants等通过引入文本来源、文本碎片等因素,以拓展TF-IDF模型来探讨新事件检测[ 4];Dai等为解决单条报道中包含的事件特征词语过少的现象,先后采用AP(Affinity Propagation)、AHC(Agglomerative Hierarchical Clustering)算法,构建AP-AHC模型以识别新事件,并取得了较好的效果[ 5];贾自艳等根据新闻事件的生存特点,借鉴Single-Pass 聚类思想,引入时间距离因素,设计了基于动态进化模型的事件探测与追踪算法[ 6]

一般来说,突发事件爆发后,往往能够迅速得到各大媒体的关注并在网络中得以及时传播,同时那些用来表征事件的主要特征描述,便被广泛流传开来,且这些特征是相对稳定的,反映在语言学上表现为用于描述事件主要特征的那些词语及其出现的先后顺序是稳定的。这一语言学现象为利用时段内的热点及其相对稳定的关系发现新事件提供了依据。国内已经有学者借鉴此类现象,通过对网络信息进行热点发现和热点间相对稳定的统计分析,实现了新词语发现,并运用于《现代汉语新词语信息(电子)词典》的编纂工作[ 7]。而在热点发现领域,目前已取得了不少研究成果,例如Bun等提出的TF-PDF模型,能够更为全面、准确地从海量网络信息中捕获某一时段被广为关注的信息[ 8]

现有的研究多是基于统计展开的,且或多或少地忽略了语义因素的影响。本文则充分运用那些表征事件本身的词语反映在语言学上的特征,借助词间距客观地揭示了这些词语之间的分布状态,为事件识别的语义研究找到了一定的理论基础和方法。

3 研究思路

本文的研究重点是探讨如何利用词语本身的语言学特性来实现新事件识别。事件是一个动态话题, 该动态话题往往会发生迁移进化并可分裂为几个不同的子事件[ 9],可以表述为发生在某特定时间和地点的事件,由表征它的词语描述及其自身的要素构成,词语则是词和短语的合称,包括词、词组和整个词汇,是语言里最小的可以独立运用的单位,表现为单字或多字,如:“解救乞讨儿童行动”是一个事件,由词语“解救”、“乞讨”、“儿童”、“行动”的稳定组合来描述,“乞讨”是一个话题而不是一个事件。研究通过识别构成一个事件的词语描述来探测新事件的产生,其中那些经过分词处理得到的词或短语称之为词元(Element of Terms,ET),特定时段内被广泛关注的词元称之为热点词元(Hot Element of Terms,HET),并把突发事件的识别过程分解为两个主要阶段:热点词元发现和新词语检测。

3.1 热点词元发现

热点词元发现是指在新闻报道、论坛、博客、微博等网络传播媒介上,探讨如何从海量的、不断更新的信息中找到那些在特定时段内被广泛关注的词元(词或短语)。不过,一个词元能否成为特定时段内的热点词元并用于指导事件识别,是由多种因素共同作用的,它既要满足时间上的聚焦性,也要保证来源的多元化,同时需要考虑词元词性在不同类别报道下的敏感性。张阔等在分析词元与话题相关度统计信息时,发现不同种类的词性对于新闻报道的区分起着不同程度的作用,需要区别对待,其中既有对地名敏感的自然灾害、军事冲突等类别,也有对人名敏感的选举、科学发现、犯罪等类别等[ 10]。鉴于互联网新闻报道的特殊性,本文重点提高了包含地名、人名、机构名等词性的词元权重,并借助中国科学院计算技术研究所的ICTCLAS分词系统对新闻报道进行标题分词处理,运用向量空间模型进行文本表示,同时引入了新闻报道的相似报道数因素,以改进TF-PDF模型适应研究需求,实现对特定时段内热点词元的捕获。

3.2 新词语检测

捕获到的一系列热点词元反映了特定时段内媒体或民众关注的词元,然而它们之间是互为独立、彼此分散的,既难以理解,又不足以表达一个事件或话题,且需要进一步的加工整理与组合。研究将这些一个个彼此独立的热点词元看作构成事件描述的单元,并依次导入时段内的新闻报道中,统计它们出现的先后位置信息,寻找词元之间是否存在着依赖关系及其相对稳定的近邻现象,并根据这种近邻现象实现新词语检测。研究通过词间距(Distance between two Segmental Words,DSW)来反映词元之间的近邻现象,通过词元之间位置序号的差值运算来计算词间距。假设现有两词元“乞讨/n”、“儿童/n+1”,前者始终先于后者出现,若词间距为1,且报道中多次出现,表明新词语“乞讨儿童”形成。其中,“乞讨/n”表示词元“乞讨”在当前标题中出现的位置序号是n,“儿童/n+1”表示词元“儿童”在当前标题中出现的位置序号是n+1,它们之间的词间距计算方法为[(n+1)-n]=1。因而,词间距揭示了词元之间的先后位置关系,取值范围为[1,+∞)。

综上所述,本文的研究框架如图1所示:

图1 互联网新闻报道中的突发事件识别研究框架

4 突发事件识别系统设计
4.1 热点词元发现

Bun等研究发现,新出现或变化的词语对新闻来源上的差异有着较强的敏感性[ 8]。笔者认为不同时刻下产生的新闻报道对各词元的赋值是有差异的。在参考TF-PDF模型[ 8]的基础上,将每天产生的所有新闻报道的标题,按小时形成24个片段,继而对每个片段内的所有词元进行权重计算,并通过求和等运算操作,最终获取新闻报道标题的词元权重。此外,在相同时段内的所有新闻报道中,若某一新闻报道包含了多条相似报道,那么它所包含的词元的权重应与没有相似报道的新闻报道有所不同。为了体现这种差异现象,本文引入了相似报道数因素加以测量。词元权重的具体计算方法如下:

Wj= ((|Fjt|exp( )×(1-r)+ ×r)(1)

|Fjt|=(2)

其中,Wj为词元j的权重;Fjt为词元j在时刻t内的所有报道中出现的总数;njt为时刻t内包含词元j的报道总数;Nt为时刻t内包含的报道总数;K为某时刻内包含的词元总数;T为包含的时段总数(以小时为单位);mjt为时刻t内词元j所在的报道中含有的相似报道总数;Mt为时刻t内所有报道含有的相似报道总数;r为调节因子(0≤r≤1),以反映相似报道数的影响力。当r=0时,表示相似报道数对词元权重赋值没有影响;当r≤1时,表示相似报道数对词元权重赋值影响强烈(研究发现r在0.4和0.5之间取值最为适合,本文中取值为0.41)。此外,相似报道数取决于报道来源的广泛与否,因而也反映了报道来源的多元化对词元权重赋值的影响。

4.2 词间距策略

事件特征描述的相对稳定现象反映在构成事件特征描述的词元之间存在着相对稳定的近邻现象,它们可以通过词间距衡量,如表1所示:

表1 热点词元与词间距实例

表1中,标题1-标题8的数值,代表了各个词元是否在标题中出现及出现的位置序号,能够反映各个词元(如解救、乞讨、儿童、行动)在某时段内的相邻情况,其中词元“乞讨”和“儿童”先后出现(DSW=1)多达8次,说明该时段内以上两个词元之间存在着相对稳定的近邻现象。那些表征近邻现象的词元构成了事件特征描述的主要部分,因此,如何高效、稳定地获取词间距信息,也成为研究关注的重点。本文获取词间距信息的步骤如下:

预处理:以某一时段内出现的热点词元为过滤规则,依次扫描该时段内产生的新闻报道标题,把热点词元在标题中出现的位置及其词性等信息存入临时表(见表1)。

(1)声明变量i(初始值为1)、获取临时表中的记录总数(记为n)和获取临时表中的报道总数(记为m);

(2)若i不大于m,跳至步骤(3);否则,跳至步骤(8);

(3)初始化数组ETPosition[n],同时将标题i中热点词元的位置信息依次赋值给该数组;

(4)从数组ETPosition中依次取出两个位置信息作差运算,计算热点词元间的词间距;

(5)若词间距为1,表明对应的热点词元是紧邻的,同时按照一定的格式(见表2)存入候选事件表且把出现次数置为1;若相关热点词元间的词间距信息已存在,则已有出现次数加1;

(6)若数组ETPosition中的位置信息计算完毕,释放数组ETPosition,跳至步骤(7);否则,跳至步骤(4);

(7)计算下一个标题所携带的词间距信息(i++),跳至步骤(2);

(8)词间距统计完毕。

把那些词间距为1的词元称之为“近邻词元”,即事件描述碎片(Fragments of Event Description,FED),按照词元本身所携带的位置序号,决定其先后位置关系并进行组配,形成事件描述碎片集合,为事件特征描述的抽取提供原始数据。

4.3 事件识别

特定时段内事件描述碎片的存在状态,决定了一个事件的产生与否,或它是否得到了持续关注,而与某一事件相关的新闻报道在特定时间段内,有着相对集中的趋势。因此,通过观察事件描述碎片在特定时段内的出现频次,能够识别出事件及其被关注的程度。事件描述碎片集合的实例如表2所示:

表2 2011年2月7日事件描述碎片集合实例

本文主要综合表2中的出现频次和频次报道比等因素,来决定是否产生一个事件,即用出现频次来反映事件描述碎片的活跃程度,用频次报道比来揭示事件描述碎片在整个报道中的关注强度。实验发现,在一个事件描述碎片集合中,满足出现频次不小于15或频次报道比不小于0.15时,能够较好地识别一个事件,如:表2识别了一个“解救乞讨儿童行动”事件。当然用这些事件描述碎片按照位置信息直接堆砌来描述一个事件是不太严谨的,它往往需要进行修饰与完善,而这不是本文关注的重点。具体事件识别策略如下:

预处理:以表2中词元位置信息升序排列的方式,获取事件碎片里的词元信息,把词元、位置、出现频次等信息依次存入数组FED、Position、Pnum,声明字符串变量MergeEvent、ClassEvent和整型变量MergeNum、ClassNum。其中,字符串变量初始值为空、整型变量初始值为0。

(1)从数组Position中依次取出两个位置信息作差运算;

(2)若差值为0且数组FED对应的词元相同,跳至步骤(3);否则,跳至步骤(4);

(3)取出一个相关词元,存入字符串MergeEvent,同时把两者的频次信息作和运算并存入MergeNum;

(4)从数组FED中依据位置顺序取出词元并拼接成事件描述碎片,存入字符串ClassEvent,同时把对应的频次信息作和运算并存入ClassNum;

(5)若数组Position中的位置信息计算完毕,跳至步骤(6);否则,跳至步骤(1);

(6)若MergeNum不大于ClassNum,事件表示为字符串ClassEvent、MergeEvent顺序拼接;反之,则反序拼接;

(7)事件识别完毕,释放数组FED、Position、Pnum。

4.4 事件相关性判断

特定时段内识别出的事件有两层意思:新出现的事件,在以往时间片中是不存在的;已有事件的延续,先于当前时间片而存在,且在当前时间片中得以强化或持续关注。这使得事件间的相关性计算变得极为重要。

相关研究表明,目前广为流行的向量空间模型(Vector Space Model,VSM)存在着向量空间中各词彼此独立、词的顺序被忽略、一词多义和一义多词问题被忽略及其缺乏理论基础等诸多缺陷,不适应于研究中事件描述碎片的词元间彼此依赖、按需组合等现状。Zhou以系统理论为基础,认为两个系统的相似应表现为构成系统的各要素间的相似状态,且系统相似度取值的主要因素包括各自组成要素的个数、系统与各级子系统的要素构成、要素的权重、相似元及其相似度等,同时提出了系统相似模型(System Similarity Model,SSM)[ 11]。该模型在理论上采取了更加符合人类认知科学的思想,其数学定义为,给定系统A={a1,a2,…,am},|A|=m和系统B={b1,b2,…,bn},|B|=n,其中ai(1≤i≤m)和bj(1≤j≤n)为系统要素,其权重分别用xi>0 和yj>0表示。假定系统之间相似元个数为p(p≤min{m,n}),记为s1,s2,…,sp∈A×B, 设它们分别为、…,其相似度分别为ui(1≤i≤p),系统相似度Q(A,B)的计算如下:

Q(A,B)=(3)

将事件看作系统,它包含一系列事件描述碎片,且事件描述碎片是由一个个热点词元组成的,同时把一个个热点词元看作构成系统的要素,并通过构建两事件间的热点词元相似元,以寻找事件之间的相关关系。假设阈值为T,新事件因子为F,已有事件集合为B={b1,b2,…,bn},|B|=n,且bi(1≤i≤n)为热点词元,候选事件为A,并将候选事件A与已有事件进行相关性计算,得到新事件因子集合F={1-Q(A,B1),…,1-Q(A,Bn)}。若满足T≤FMin,则表明候选事件A为新出现的事件;若满足T>FMin,则候选事件A为已有事件,把它整合到FMin对应的事件中,如图2所示:

图2 新事件识别流程

5 应用实例与分析

基于互联网新闻报道的突发事件识别系统开发环境采用Windows XP操作系统,MySQL数据库,Visual Studio 2008(C#),并选取2011年初网络普遍关注的儿童话题,以新浪搜索平台为数据采集入口,采集发布在2011年2月1日至2011年2月28日的有关儿童讨论的所有新闻报道,共计2 357条(其中新闻报道总数为953,包含的相似报道总数为1 404),然后按照表3所示的字段,存入数据库。

表3 新闻报道样本数据的储存格式

通过对样本中的标题以天为单位进行热点词元检测,找到当天新闻报道的关注点,然后把得到的热点词元逐一和该天的新闻报道标题进行词间距统计分析,以把握这些热点词元之间距离远近的客观分布状态,再把词间距为1的词元按照词元出现的位置前后关系进行组合,并拼接成事件,如表4所示:

表4 新闻报道样本中识别出的事件

表4逐一呈现了2011年2月有关儿童话题的事件序列,在对上述系列事件做相关性判断的基础上,笔者认为2月份出现了两个事件:解救乞讨儿童行动(2011年2月7日)和微博打拐乞讨儿童(2011年2月11日)。通过实验数据分析发现,2月份网络中有关儿童话题关注点是围绕如何解救乞讨儿童展开的,一开始是有了这种行为(7日),发展为打拐(9日)这一具体举动,之后民众又借助微博这一平台理性地进行打拐(10日),从而使利用微博平台进行打拐以解救乞讨儿童(11日至22日)成为了焦点。同时研究分别参照国内4大门户网站对这一事件的敏感程度,用于评估实验结果的有效性,如表5所示:

表5 4大门户网站专题报道对2011年2月儿童话题的敏感程度

通过与4大门户网站的对比分析,发现该模型对突发事件的识别在时间上有着较高的敏感性,即能够及时捕捉到当前发生的突发事件。这一成果在当前网络环境下有着重要的应用意义。2010年2月2日由人民日报刊发的《处置突发事件的“黄金4小时”法则》传递了这样一条信息,即随着QQ、BBS、微博客等即时通信应用的普及,政府发布信息、引导舆论的速度应该由24小时提升为4小时,做到“快报事实,慎报原因”,及时疏导,争取主动。它取代了以往的“黄金24小时”法则,并强调政府应该在第一时间做突发事件的“第一定义者”,但过于仓促的报道可能会引起公众恐慌等问题,于是有了“快报事实、慎报原因”的原则;同时,这一法则也得到了多家媒体及相关组织的积极回应和许多地方政府部门或官员的认同[ 12]。尽管如此,如何做到速获、速报、跟踪、疏导等问题没有很深入具体的研究,也没有形成较为系统、先进和完备的处理公共事件的标准、原则和机制。而本文提出的模型,因能迅速捕获到突发事件而使相关应对与处理工作变得更加从容。

研究设计的突发事件识别框架是基于热点词元发现和新词语检测两个层面展开的,其中热点词元是通过改进TF-PDF算法加以识别并用当前广泛关注的词元来表示,具有一定的人为性,词间距是词元之间位置序号的差值,揭示了热点词元之间距离远近的客观分布状态。因而,系统性能的好坏往往取决于热点词元识别的准确性和全面性。

6 结 语

面对海量而又纷繁冗杂的网络信息,当前各大门户网站相继推出了时政(社会)专题报道,但对哪些信息具备形成专题条件尚没有统一的标准。本文着眼于解决这一问题以及时、准确地捕获突发事件形成相关专题,构建并实证了基于互联网新闻报道的突发事件识别模型的可行性,实验表明该模型识别出的突发事件能够为专题报道的形成提供必要的指导,具有一定的先导作用。不过,因研究仅仅从新浪搜索这一通用搜索引擎获取相关话题的新闻报道而无法覆盖整个互联网,使得模型的通用性受到了一定的限制;在热点词元发现过程中,研究引入了相似报道数要素来反映报道来源的多元化对词元权重赋值的影响,而这一要素在具体应用中如何获取还没有找到很好的解决方案,需要进一步深入研究和完善。

同时本研究能够为候选词之间的有序组合、新词语的发现、词表的自动更新等研究提供新的思路或方法,也对于进一步探索网络信息的自组织、时政(社会)等相关专题报道形成等方面的应用实践具有一定的作用。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 洪宇, 张宇, 范基礼, . 基于子话题分治匹配的新事件检测[J]. 计算机学报, 2008, 31(4): 2887-2898. [本文引用:1]
[2] Yang Y, Carbonell J G, Brown R D, et al. Learning Approaches for Detecting and Tracking News Events[J]. IEEE Intelligent Systems, 1999, 34(4): 32-43. [本文引用:1] [JCR: 2.154]
[3] Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing[J]. Journal of Documentation, 1973, 29(4): 351-372. [本文引用:1]
[4] Brants T, Chen F, Farahat A. A System for New Event Detection[C]. In: Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2003: 330-337. [本文引用:1]
[5] Dai X, He Y, Sun Y. A Two-layer Text Clustering Approach for Retrospective News Event Detection[C]. In: Proceedings of Artificial Intelligence and Computational Intelligence. 2010: 364-368. [本文引用:1]
[6] 贾自艳, 何清, 张海俊, . 一种基于动态进化模型的事件探测和追踪算法[J]. 计算机研究与发展, 2004, 41(7): 1273-1280. [本文引用:1]
[7] 邹纲, 刘洋, 刘群, . 面向Internet 的中文新词语检测[J]. 中文信息学报, 2004, 18(6): 1-9. [本文引用:1]
[8] Bun K K, Ishizuka M. Topic Extraction from News Archive Using TF*PDF Algorithm[C]. In: Proceedings of the 3rd International Conference on Web Information Systems Engineering. 2002: 73-82. [本文引用:3]
[9] 雷震, 吴玲达, 刘宇弛, . 基于事件的新闻报道分析技术研究进展[J]. 计算机应用研究, 2007, 24(5): 13-16. [本文引用:1]
[10] 张阔, 李涓子, 吴刚, . 基于词元再评估的新事件检测模型[J]. 软件学报, 2008, 19(4): 817-828. [本文引用:1]
[11] Zhou M. Some Concepts and Mathematical Consideration of Similarity System Theory[J]. Journal of System Science and System Engineering, 1992, 1(1): 84-92. [本文引用:1] [JCR: 0.632] [CJCR: 0.193]
[12] 张音, 王舒怀, 李鹤. “概念新闻”与党报创新[J]. 新闻战线, 2010(9): 29-31. [本文引用:1]