1 引 言
随着网络信息的快速增长,从繁杂的信息中获取用户真正关注的新闻信息越来越困难,为解决该问题,1996年美国国防高级研究项目局制定了话题识别与追踪的任务划分和具体的评测方法,追踪技术逐步成为研究热点。话题追踪技术能有效组织海量数据、挖掘有用信息,在网络监控领域和信息管理领域中已经得到广泛应用。话题追踪系统主要包括:话题模型、相关性判定机制和阈值估计[1 ] 。话题模型是由话题内容和语义组成的基本框架,决定话题追踪系统的性能。
Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型。模型采用词袋表示文本,不能直观模拟话题的演化过程。屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题。王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定。宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高。Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低。
贝叶斯网络检索模型采用推理加估计的方法,在保证准确率的前提下,简化了概率推导,提高了模型的效率,节省了推导过程中数据占用的空间[7 ] 。本文借鉴贝叶斯网络检索模型的思想,提出贝叶斯网络话题追踪(Bayesian Network Topic Tracking,BNTT)模型。考虑事件便于观察和追踪话题的各个方面,在BNTT模型基础上添加一层事件节点,构建扩展贝叶斯网络话题追踪(Extend Bayesian Network Topic Tracking,E_BNTT)模型。本文主要贡献如下:
(1)建立BNTT模型和E_BNTT模型的拓扑结构。BNTT模型的拓扑结构是含术语和话题两层节点的有向图,E_BNTT模型的拓扑结构是含术语、事件和话题三层节点的有向图,弧的指向表明包含关系。
(2)由模型独立性假设、推理加估计方法和贝叶斯网络相关知识,提出BNTT模型和E_BNTT模型的概率计算公式。
2 相关知识
2.1 话题追踪相关概念
话题追踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其核心任务是从时序排列的新闻报道流中,实时识别和挖掘关于特定新闻话题的系列相关报道,其关键问题之一是如何建立符合话题形态的统计模型[1 ] 。
话题模型是话题追踪系统重要的研究内容之一,旨在建立一种描述新闻话题核心内容的模型。从模型是否动态更新角度,话题模型可分为静态话题模型和动态话题模型。静态话题模型强调话题初始核心的守恒性,动态话题模型则注重话题核心随着后续相关报道的出现而动态更新。
TDT(Topic Detection and Tracking)评测会议给出了话题识别与追踪中相关概念的定义[8 ] :
定义1 话题(Topic):一个种子事件或活动,以及所有与之直接相关的事件或活动。
定义2 事件(Event):由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的新闻信息。
定义3 报道(Story):与话题紧密相关、包含两个或多个独立陈述某个事件的子句的新闻片段。
2.2 贝叶斯网络
贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9 ] 。基于贝叶斯网络的检索模型主要包括推理网络模型[10 ] 、信念网络模型[11 ] 和贝叶斯网络模型[12 ] 。话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能。
贝叶斯网络由定量和定性两部分组成。定性部分是一个有向无环图(Directed Acyclic Graph, DAG),可记为 G = V , E ,其中 V 是节点的集合, E 是有向弧的集合。从概率推导角度考虑,任意节点 X i 可理解为一个随机变量,弧表示变量间的依赖关系。
定量部分是基于DAG得到的条件概率分布表集。每个变量 X i ∈ V 都对应一个条件概率分布表 p ( X i | pa ( X i ) ) , Pa ( X i ) 是 X i 的父节点集合, pa ( X i ) 是 Pa ( X i ) 的任意子集。条件概率值表示变量间关系的紧密程度。贝叶斯网络蕴含了条件独立性假设,网络中的任意节点与其非子节点条件独立,即在概率推导中不考虑非子节点的影响,如图1 所示。
图1
图1
贝叶斯网络
Fig.1
Bayesian Network
其中,节点的集合 V = { X 1 , X 2 , ⋯ , X 7 } ,由条件独立性假设得到联合概率 p ( X 1 , X 2 , ⋯ , X 7 ) ,如公式(1)[9 ] 所示。
(1) p ( X 1 , X 2 , ⋯ , X 7 ) = p ( X i | pa ( X i ) )
3 话题模型
话题模型是话题追踪的关键。在话题追踪前,每个话题给定最早发布的1-4篇样本报道,并将其作为话题核心追踪后续相关报道,从样本报道中提取一定数量的术语构成话题术语集。
3.1 模型独立性假设
假设1:术语间相互独立。即术语间不存在依赖关系,故术语节点间没有连线。
假设2:话题间相互独立。BNTT模型话题之间关系只通过索引它的术语体现,E_BNTT模型话题之间关系只通过话题包含的事件体现,话题节点之间没有连线。
假设3:如果已知事件 E i 和所有术语的相关情况, E i 和其他事件 E k 之间条件独立,即事件节点之间没有连线。当给定新报道 S 时,表示为: p E i S , E k = p E i S 。
3.2 BNTT模型
由模型独立性假设,建立BNTT模型的拓扑结构,如图2 所示。BNTT模型包括两类节点:术语节点和话题节点。话题节点由样本数据中已有话题确定,术语节点由样本报道特征提取获得。若 K t 是话题 T j 的索引术语,则有一条从节点 K t 指向节点 T j 的弧。
图2
图2
BNTT模型
Fig.2
BNTT Model
术语节点 K t 为模型的根节点,由于事先不知道术语出现的概率,假设每个术语等概率发生,故先验概率 p ( K t ) = 1 / M ,其中, M 为话题术语集中术语的总个数。
话题节点 T j ,用文献[7 ]中的估计函数得到条件概率 p ( T j | pa ( T j ) ) ,如公式(2)所示。
(2) p ( T j | pa ( T j ) ) = ∑ ∀ K t ∈ pa ( T j ) w t , T j
其中, w t , T j 为术语 K t 在话题 T j 中的权重, w t , T j ≥ 0 且 ∑ K t ∈ T j w t , T j ≤ 1 。若 pa ( T j ) 中术语增多,条件概率值增大。
②计算报道 S 和已有话题 T j 相似度 sim ( T j , S ) ;
③判定报道 S 和话题 T j 的相关性,若相似度大于规定阈值,报道 S 与话题 T j 相关,否则为不相关。
依据独立性假设和贝叶斯网络相关知识,借鉴文献[7 ]的思想, sim ( T j , S ) 的计算如公式(3)所示。
(3) sim ( T j , S ) = p ( T j , S ) = η ∑ ∀ pa ( T j ) p ( T j | pa ( T j ) ) × p ( pa ( T j ) | S ) = η ∑ ∀ K t ∈ Pa ( T j ) w t , T j × p ( K t | S )
其中, η 为规范化常数。由术语间边缘独立性得到:若 K t ∈ S ,则 p ( K t | S ) = 1 ;若 K t ∉ S ,则 p ( K t | S ) = 1 / M ,即条件概率 p ( K t | S ) 可由公式(4)[7 ] 计算得到。
(4) p ( K t | S ) = 1 ∀ K t ∈ S 1 / M else
3.3 E_BNTT模型
一个话题伴随着若干个事件,每个事件描述话题的不同侧面[13 ] ,将话题划分为事件更利于追踪话题的各个方面。通过描述事件的术语可以发现同一话题事件的变化。当话题用固定数量的术语表示时,若术语个数少对话题描述会不全面;术语个数多则可能引入噪声,但不同事件中噪声往往不同,因此添加事件节点有助于削弱噪声的影响。
依据3.1节模型独立性假设,在BNTT模型中添加事件节点,构建E_BNTT模型的拓扑结构,如图3 所示。E_BNTT模型包括三类节点:术语节点 K t 、事件节点 E i 和话题节点 T j 。若事件 E i 属于话题 T j ,则有一条从节点 E i 指向节点 T j 的弧,若 K t 是事件 E i 的索引术语,则有一条从节点 K t 指向节点 E i 的弧。
图3
图3
E_BNTT模型
Fig.3
E_BNTT Model
话题节点确定方式同BNTT模型,事件节点由样本报道分类确定,将事件的相关报道特征提取一定数量的术语,构成事件术语集。事件节点的确定方法步骤如下:
①将样本报道按发布时间排序,第一篇报道归为第一个事件;
③若最大相似度大于 δ 0 ≤ δ ≤ 1 ,将该报道归为该事件;否则添加新事件且将该报道归为新事件;
术语节点 K t 为模型的根节点,先验概率 p ( K t ) = 1 / M 。事件节点 E i ,需估计 E i 的条件概率 p ( E i | pa ( E i ) ) ,估计方法如公式(5)所示。
(5) p ( E i | pa ( E i ) ) = ∑ ∀ K t ∈ Pa ( E i ) p ( E i | K t ) = ∑ ∀ K t ∈ Pa ( E i ) w t , E i
其中, w t , E i 为术语 K t 在事件 E i 中的权重, w t , E i ≥ 0 且 ∑ K t ∈ E i w t , E i ≤ 1 。
话题节点 T j ,需估计 T j 的条件概率 p ( T j | pa ( T j ) ) ,方法如公式(6)所示。
(6) p ( T j | pa ( T j ) ) = ∑ ∀ E i ∈ Pa ( T j ) p ( T j | E i ) = ∑ ∀ E i ∈ Pa ( T j ) w E i , T j
其中, w E i , T j 为事件 E i 和话题 T j 的相似度,采用余弦相似度公式计算,如公式(7)[14 ] 所示。
(7) w E i , T j = ∑ w l , T j × w l , E i ∑ w l , T j 2 × ∑ w l , E i 2
其中, w l , T j 为术语 K l 在话题 T j 中的权重, w l , E i 为术语 K l 在事件 E i 中的权重。
②通过计算报道 S 和任意事件 E i 的相似度 p ( E i | S ) ,事件 E i 和话题 T j 的相似度 w E i , T j ,得到报道 S 和已有话题 T j 相似度 sim ( T j , S ) ;
③判定报道 S 和话题 T j 的相关性,若相似度大于规定阈值,报道 S 与话题 T j 相关,否则为不相关。
依据独立性假设和贝叶斯网络相关知识,报道 S 和已有话题 T j 相似度计算方法如公式(8)所示。
(8) sim ( T j , S ) = p ( T j | S ) = β ∑ ∀ pa ( T j ) p ( T j | p ( T j ) ) × p ( pa ( T j ) | S ) = β ∑ ∀ E i ∈ Pa ( T j ) w E i , T j × p ( E i | S )
其中, β 为规范化常数, p ( E i | S ) 为事件 E i 和报道 S 的相似度,如公式(9)[7 ] 所示。其中条件概率 p ( K t | S ) 由公式(4)计算。
(9) p ( E i | S ) = ∑ ∀ pa ( E i ) p ( E i | pa ( E i ) ) × p ( pa ( E i ) | S ) = w t , E i × p ( K t | S )
4 实 验
(1)在 δ 不同取值情况下,统计BNTT模型的追踪性能,确定划分事件的参数 δ ;
(2)统计不同阈值下模型的漏报率和误报率,绘制DET曲线,比较向量空间话题模型和BNTT模型的性能;
(3)计算模型的 optimal ( ( C det ) norm ) 值,比较BNTT模型和E_BNTT模型的性能。
4.1 实验数据集
实验使用通用数据集TDT4语料库进行评测。TDT4共有98 245篇新闻报道,包括APW,NYT,ABC,VOA等20个新闻来源从2000年10月到2001年11月的新闻报道,涉及英文、中文、阿拉伯语三种语言。美国语言数据联盟(Linguistic Data Consortium, LDC)对其中40个新闻话题进行标注,标注了话题的相关报道和不相关报道。本文使用TDT4语料库中的中文报道对模型进行性能检测。
4.2 性能评价指标
DET(Detection Error Trade-off)曲线统计了不同阈值下的漏报率 P miss 和误报率 P fa ,曲线越靠近坐标原点,模型性能越好。漏报率 P miss 和误报率 P fa 的计算如公式(10)和公式(11)所示[6 ] 。其中,参数 a , b , c , d 的意义如表1 所示。
(10) P miss = c a + c
(11) P fa = b b + d
(2) 最优性能 optimal ( ( C det ) norm )
optimal ( ( C det ) norm ) = min ( ( C det ) norm ) ,该值越小表示模型性能越好。 C det 是识别代价指标,将漏报率(Miss Probability)和误报率(False Alarm Probability)两个值归一化,并赋予一定的评估代价参数得到代价指标,如公式(12)[6 ] 所示; ( C det ) norm 是 C det 的标准化,如公式(13)[6 ] 所示。
(12) C det = C miss × P miss × P target + C fa × P fa × P non _ target
(13) ( C det ) norm = C det Min ( C miss × P target + C fa × P non _ target )
其中 C miss 和 C fa 分别表示漏报代价和误报代价, P target 表示发现新报道的概率,这三个值均为预设值, P miss 和 P f a 分别表示漏报率和误报率, P non _ target = 1 - P target 。TDT评测会议给定话题追踪任务中 C miss , C fa , P target , P non _ target 等4个值分别为1.00,0.10,0.02,0.98。
4.3 实验过程及分析
TDT4数据集中每个文件中有多个报道,每篇报道以<doc>开始至</doc>结束。首先,切分文件,将文件中每篇报道独立存放,并将所有报道按发布时间排序。其次,每个话题取前4篇相关报道[14 ] ,构成初始建模数据集,剩余报道为待追踪数据集。为区分不同数据集中报道,待追踪数据集中的报道均称为新报道。最后,分别将建模数据集和待追踪数据集中报道分词、去停用词,统计每个术语 K i 在报道 S 中的词频 t f is 和逆文档频率 id f i ,计算术语的权重,如公式(14)[7 ] 所示。
(14) w is = α - 1 t f is × id f i 2 ∑ ∀ K t ∈ S t f ts × id f t 2
其中, α 为规范化常数,以确保 ∑ K t ∈ T j w t , T j ≤ 1 和 ∑ K t ∈ E i w t , E i ≤ 1 。
①话题建模。话题集由TDT4中话题构成,BNTT模型和向量空间话题模型构建时,每个话题由4篇样本报道中的术语描述,所有话题的术语构成话题术语集。E_BNTT模型构建时,每个话题将4篇样本报道按3.3节中的步骤划分为事件,每个事件由其相关报道中的术语描述,所有事件的术语构成事件术语集。
②计算相似度。BNTT模型,E_BNTT模型和向量空间话题模型分别用公式(3)、公式(8)和余弦公式,计算新报道 S 和话题 T j 的相似度。
③阈值判断。将步骤②中计算的相似度与设定阈值比较,大于阈值标注新报道 S 和话题 T j 相关,否则标注为不相关。
④重复步骤②与步骤③,直到待测报道集中所有报道标记完成。
事件的划分是E_BNTT模型性能的关键,不同的参数 δ ,将样本报道划分为不同事件,产生不同的追踪效果。 δ ≤ 0.05 时所有样本报道划分为一个事件, δ ≥ 0.35 时多数话题的每篇样本报道独立为一个事件,随 δ 增大模型性能变化很小,故实验分别在 δ 取0.05,0.10,0.15,0.20,0.25,0.30,0.35时计算E_BNTT模型的 optimal ( ( C det ) norm ) 值,实验结果如表2 所示。
由表2 可知参数 δ 取值影响模型性能。观察表中模型 optimal ( ( C det ) norm ) 值可以发现,当 δ = 0.10 时, optimal ( ( C det ) norm ) 值最小,即模型性能最好,故本文 δ 取值0.10。
实验在不同阈值下的标注结果与TDT4数据集中标注结果对比,得到BNTT模型和向量空间话题模型的漏报率、误报率,绘制DET曲线如图4 所示。
图4
图4
BNTT模型和向量空间话题模型性能对比
Fig.4
Performance of BNTT and VSM
每个话题由4篇样本报道描述,样本报道中术语构成话题的核心,话题核心比单篇报道的内容能更准确地描述话题。BNTT模型在计算新报道和话题相似度时主要由话题中术语权重确定,更注重话题核心的影响。由图4 可知,BNTT模型DET曲线在向量空间话题模型DET曲线下方,同一阈值下BNTT模型的漏报率和误报率较小,BNTT模型追踪性能更好。
计算E_BNTT模型和BNTT模型的 optimal ( ( C det ) norm ) 值,统计结果如表3 所示。
从表3 可知,E_BNTT模型比BNTT模型 optimal ( ( C det ) norm ) 值降低了约0.017,添加事件节点后模型能较好地把握话题各方面的内容,追踪效果更好。每个事件是话题的一个子类,事件间的相同部分是话题的核心部分,噪声往往在事件间的不同部分。添加事件节点后在计算报道和话题的相似度时,核心部分会被加强,噪声部分会被削弱。实验结果显示E_BNTT模型较BNTT模型性能提高较少,主要因为话题是随着时间推移逐渐演化的,话题演化会产生新事件。本文提出的E_BNTT模型中事件是由发布最早的4篇样本报道确定,并未动态更新,但将话题划分成不同事件可为日后研究事件的动态变化奠定基础。
5 结 语
本文将贝叶斯网络用于话题识别与追踪,给出BNTT模型、E_BNTT模型拓扑结构和概率计算公式,并通过实验验证了两个模型的性能。实验结果表明,与向量空间话题模型相比,BNTT模型计算报道和话题相似度时更注重话题核心的影响,追踪性能更好;E_BNTT模型通过添加一层事件节点挖掘报道、事件和话题间的关系,较BNTT模型,进一步提高了追踪性能。本文提出的话题追踪模型属于静态模型,在话题追踪过程中两个模型的话题核心保持不变,适用于对准确率要求高的领域,但随着时间推移,话题演化会产生新事件,新模型未做更新,漏报率会相应提高。在未来工作中,将考虑构建自适应的追踪模型,以更好地模拟话题的演化;利用贝叶斯网络检索模型易于扩展的特性,挖掘语义关系和话题间关系,更准确全面描述话题,提高话题追踪性能。
作者贡献声明
徐建民:提出论文选题与研究思路,设计研究方案,修改论文;
张丽青:研究方案实施,论文撰写,数据分析,实验设计与结果分析;
支撑数据
支撑数据由作者自存储,E-mail: 1031015476@qq.com。
[1] 张丽青. TDT4语料库.rar. 购买的官方实验数据集.
参考文献
View Option
[1]
洪宇 , 仓玉 , 姚建民 , 等 . 话题跟踪中静态和动态话题模型的核捕捉衰减
[J]. 软件学报 , 2012 ,23 (5 ):1100 -1119 .
[本文引用: 2]
( Hong Yu , Cang Yu , Yao Jianmin , et al . Descending Kernel Track of Static and Dynamic Topic Models in Topic Tracking
[J]. Journal of Software , 2012 ,23 (5 ):1100 -1119 .)
[本文引用: 2]
[2]
Allan J , Papka R , Lavrenko V . On-Line New Event Detection and Tracking
[C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM , 1998 : 37 -75 .
[本文引用: 1]
[3]
屈庆涛 , 刘其成 , 牟春晓 . 基于N-Gram语言模型的并行自适应新闻话题追踪算法
[J]. 山东大学学报:工学版 , 2018 ,48 (6 ):37 -43 .
[本文引用: 1]
( Qu Qingtao , Liu Qicheng , Mu Chunxiao . A Parallel Adaptive News Topic Tracking Algorithm Based on N-Gram Language Model
[J]. Journal of Shandong University: Engineering Science , 2018 ,48 (6 ):37 -43 .)
[本文引用: 1]
[4]
王亚民 , 胡悦 . 基于BTM的微博舆情热点发现
[J]. 情报杂志 , 2016 ,35 (11 ):119 -124, 140 .
[本文引用: 1]
( Wang Yamin , Hu Yue . Hotspot Detection in Microblog Public Opinion Based on Biterm Topic Model
[J]. Journal of Intelligence , 2016 ,35 (11 ):119 -124, 140 .)
[本文引用: 1]
[5]
宋莉娜 , 冯旭鹏 , 刘利军 , 等 . 基于SOM聚类的微博话题发现
[J]. 计算机应用研究 , 2018 ,35 (3 ):671 -674, 679 .
[本文引用: 1]
( Song Lina , Feng Xupeng , Liu Lijun , et al . Microblog Topics Detection Based on SOM Clustering
[J]. Application Research of Computers , 2018 ,35 (3 ):671 -674, 679 .)
[本文引用: 1]
[6]
Xu J M , Wu S F , Hong Y . Topic Tracking with Bayesian Belief Network
[J]. Optik , 2014 ,125 (9 ):2164 -2169 .
[本文引用: 4]
[7]
De Campos L M , Fernández-Luna J M , Huete J F . The BNR Model: Foundations and Performance of a Bayesian Network-Based Retrieval Model
[J]. International Journal of Approximate Reasoning , 2003 ,34 (2-3 ):265 -285 .
[本文引用: 6]
[8]
Doddington G , Fiscus J . The 2002 Topic Detection and Tracking (TDT2002) Task Definition and Evaluation Plan [R]. 2002 .
[本文引用: 1]
[9]
郑伟 , 侯宏旭 , 武静 . 贝叶斯网络在信息检索中的应用
[J]. 情报科学 , 2018 ,36 (6 ):136 -141 .
[本文引用: 2]
( Zheng Wei , Hou Hongxu , Wu Jing . Application of Bayesian Network for Information Retrieval
[J]. Information Science , 2018 ,36 (6 ):136 -141 .)
[本文引用: 2]
[10]
Turtle H R , Croft W B . Inference Networks for Document Retrieval
[C]// Proceedings of the 13th SIGIR Conference on Research and Development in Information Retrieval. New York: ACM , 1989 : 1 -24 .
[本文引用: 1]
[11]
Ribeiro-Neto B A N , Muntz R . A Belief Network Model for IR
[C]// Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM , 1996 : 253 -260 .
[本文引用: 1]
[12]
Acid S , De Campos L M , Fernández-Luna J M , et al . An Information Retrieval Model Based on Simple Bayesian Networks
[J]. International Journal of Intelligent Systems , 2003 ,18 (2 ):251 -265 .
[本文引用: 1]
[13]
周楠 , 杜攀 , 靳小龙 , 等 . 面向舆情事件的子话题标签生成模型ET-TAG
[J]. 计算机学报 , 2018 ,41 (7 ):1490 -1503 .
[本文引用: 1]
( Zhou Nan , Du Pan , Jin Xiaolong , et al . ET-TAG: A Tag Generation Model for the Sub-Topic of Public Opinion Events
[J]. Chinese Journal of Computers , 2018 ,41 (7 ):1490 -1503 .)
[本文引用: 1]
[14]
郑伟 , 张宇 , 邹博伟 , 等 . 基于相关性模型的中文话题跟踪研究
[C]// 第九届全国计算语言学学术会议论文集. 中国中文信息学会 , 2007 : 558 -563 .
[本文引用: 2]
( Zheng Wei , Zhang Yu , Zou Bowei , et al . Research of Chinese Topic Tracking Based on Relevance Model
[C]// Proceedings of the 9th China National Conference on Computational Linguistics. Chinese Information Processing Society of China , 2007 : 558 -563 .)
[本文引用: 2]
话题跟踪中静态和动态话题模型的核捕捉衰减
2
2012
... 随着网络信息的快速增长,从繁杂的信息中获取用户真正关注的新闻信息越来越困难,为解决该问题,1996年美国国防高级研究项目局制定了话题识别与追踪的任务划分和具体的评测方法,追踪技术逐步成为研究热点.话题追踪技术能有效组织海量数据、挖掘有用信息,在网络监控领域和信息管理领域中已经得到广泛应用.话题追踪系统主要包括:话题模型、相关性判定机制和阈值估计[1 ] .话题模型是由话题内容和语义组成的基本框架,决定话题追踪系统的性能. ...
... 话题追踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其核心任务是从时序排列的新闻报道流中,实时识别和挖掘关于特定新闻话题的系列相关报道,其关键问题之一是如何建立符合话题形态的统计模型[1 ] . ...
话题跟踪中静态和动态话题模型的核捕捉衰减
2
2012
... 随着网络信息的快速增长,从繁杂的信息中获取用户真正关注的新闻信息越来越困难,为解决该问题,1996年美国国防高级研究项目局制定了话题识别与追踪的任务划分和具体的评测方法,追踪技术逐步成为研究热点.话题追踪技术能有效组织海量数据、挖掘有用信息,在网络监控领域和信息管理领域中已经得到广泛应用.话题追踪系统主要包括:话题模型、相关性判定机制和阈值估计[1 ] .话题模型是由话题内容和语义组成的基本框架,决定话题追踪系统的性能. ...
... 话题追踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其核心任务是从时序排列的新闻报道流中,实时识别和挖掘关于特定新闻话题的系列相关报道,其关键问题之一是如何建立符合话题形态的统计模型[1 ] . ...
On-Line New Event Detection and Tracking
1
1998
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
基于N-Gram语言模型的并行自适应新闻话题追踪算法
1
2018
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
基于N-Gram语言模型的并行自适应新闻话题追踪算法
1
2018
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
基于BTM的微博舆情热点发现
1
2016
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
基于BTM的微博舆情热点发现
1
2016
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
基于SOM聚类的微博话题发现
1
2018
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
基于SOM聚类的微博话题发现
1
2018
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
Topic Tracking with Bayesian Belief Network
4
2014
... Allan等[2 ] 将向量空间模型用于话题建模,提出基于向量空间的话题模型.模型采用词袋表示文本,不能直观模拟话题的演化过程.屈庆涛等[3 ] 在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题.王亚民等[4 ] 利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定.宋莉娜等[5 ] 将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高.Xu等[6 ] 将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低. ...
... DET(Detection Error Trade-off)曲线统计了不同阈值下的漏报率 P miss 和误报率 P fa ,曲线越靠近坐标原点,模型性能越好.漏报率 P miss 和误报率 P fa 的计算如公式(10)和公式(11)所示[6 ] .其中,参数 a , b , c , d 的意义如表1 所示. ...
... optimal ( ( C det ) norm ) = min ( ( C det ) norm ) ,该值越小表示模型性能越好. C det 是识别代价指标,将漏报率(Miss Probability)和误报率(False Alarm Probability)两个值归一化,并赋予一定的评估代价参数得到代价指标,如公式(12)[6 ] 所示; ( C det ) norm 是 C det 的标准化,如公式(13)[6 ] 所示. ...
... [6 ]所示. ...
The BNR Model: Foundations and Performance of a Bayesian Network-Based Retrieval Model
6
2003
... 贝叶斯网络检索模型采用推理加估计的方法,在保证准确率的前提下,简化了概率推导,提高了模型的效率,节省了推导过程中数据占用的空间[7 ] .本文借鉴贝叶斯网络检索模型的思想,提出贝叶斯网络话题追踪(Bayesian Network Topic Tracking,BNTT)模型.考虑事件便于观察和追踪话题的各个方面,在BNTT模型基础上添加一层事件节点,构建扩展贝叶斯网络话题追踪(Extend Bayesian Network Topic Tracking,E_BNTT)模型.本文主要贡献如下: ...
... 话题节点 T j ,用文献[7 ]中的估计函数得到条件概率 p ( T j | pa ( T j ) ) ,如公式(2)所示. ...
... 依据独立性假设和贝叶斯网络相关知识,借鉴文献[7 ]的思想, sim ( T j , S ) 的计算如公式(3)所示. ...
... 其中, η 为规范化常数.由术语间边缘独立性得到:若 K t ∈ S ,则 p ( K t | S ) = 1 ;若 K t ∉ S ,则 p ( K t | S ) = 1 / M ,即条件概率 p ( K t | S ) 可由公式(4)[7 ] 计算得到. ...
... 其中, β 为规范化常数, p ( E i | S ) 为事件 E i 和报道 S 的相似度,如公式(9)[7 ] 所示.其中条件概率 p ( K t | S ) 由公式(4)计算. ...
... TDT4数据集中每个文件中有多个报道,每篇报道以<doc>开始至</doc>结束.首先,切分文件,将文件中每篇报道独立存放,并将所有报道按发布时间排序.其次,每个话题取前4篇相关报道[14 ] ,构成初始建模数据集,剩余报道为待追踪数据集.为区分不同数据集中报道,待追踪数据集中的报道均称为新报道.最后,分别将建模数据集和待追踪数据集中报道分词、去停用词,统计每个术语 K i 在报道 S 中的词频 t f is 和逆文档频率 id f i ,计算术语的权重,如公式(14)[7 ] 所示. ...
1
2002
... TDT(Topic Detection and Tracking)评测会议给出了话题识别与追踪中相关概念的定义[8 ] : ...
贝叶斯网络在信息检索中的应用
2
2018
... 贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9 ] .基于贝叶斯网络的检索模型主要包括推理网络模型[10 ] 、信念网络模型[11 ] 和贝叶斯网络模型[12 ] .话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能. ...
... 其中,节点的集合 V = { X 1 , X 2 , ⋯ , X 7 } ,由条件独立性假设得到联合概率 p ( X 1 , X 2 , ⋯ , X 7 ) ,如公式(1)[9 ] 所示. ...
贝叶斯网络在信息检索中的应用
2
2018
... 贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9 ] .基于贝叶斯网络的检索模型主要包括推理网络模型[10 ] 、信念网络模型[11 ] 和贝叶斯网络模型[12 ] .话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能. ...
... 其中,节点的集合 V = { X 1 , X 2 , ⋯ , X 7 } ,由条件独立性假设得到联合概率 p ( X 1 , X 2 , ⋯ , X 7 ) ,如公式(1)[9 ] 所示. ...
Inference Networks for Document Retrieval
1
1989
... 贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9 ] .基于贝叶斯网络的检索模型主要包括推理网络模型[10 ] 、信念网络模型[11 ] 和贝叶斯网络模型[12 ] .话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能. ...
A Belief Network Model for IR
1
1996
... 贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9 ] .基于贝叶斯网络的检索模型主要包括推理网络模型[10 ] 、信念网络模型[11 ] 和贝叶斯网络模型[12 ] .话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能. ...
An Information Retrieval Model Based on Simple Bayesian Networks
1
2003
... 贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9 ] .基于贝叶斯网络的检索模型主要包括推理网络模型[10 ] 、信念网络模型[11 ] 和贝叶斯网络模型[12 ] .话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能. ...
面向舆情事件的子话题标签生成模型ET-TAG
1
2018
... 一个话题伴随着若干个事件,每个事件描述话题的不同侧面[13 ] ,将话题划分为事件更利于追踪话题的各个方面.通过描述事件的术语可以发现同一话题事件的变化.当话题用固定数量的术语表示时,若术语个数少对话题描述会不全面;术语个数多则可能引入噪声,但不同事件中噪声往往不同,因此添加事件节点有助于削弱噪声的影响. ...
面向舆情事件的子话题标签生成模型ET-TAG
1
2018
... 一个话题伴随着若干个事件,每个事件描述话题的不同侧面[13 ] ,将话题划分为事件更利于追踪话题的各个方面.通过描述事件的术语可以发现同一话题事件的变化.当话题用固定数量的术语表示时,若术语个数少对话题描述会不全面;术语个数多则可能引入噪声,但不同事件中噪声往往不同,因此添加事件节点有助于削弱噪声的影响. ...
基于相关性模型的中文话题跟踪研究
2
2007
... 其中, w E i , T j 为事件 E i 和话题 T j 的相似度,采用余弦相似度公式计算,如公式(7)[14 ] 所示. ...
... TDT4数据集中每个文件中有多个报道,每篇报道以<doc>开始至</doc>结束.首先,切分文件,将文件中每篇报道独立存放,并将所有报道按发布时间排序.其次,每个话题取前4篇相关报道[14 ] ,构成初始建模数据集,剩余报道为待追踪数据集.为区分不同数据集中报道,待追踪数据集中的报道均称为新报道.最后,分别将建模数据集和待追踪数据集中报道分词、去停用词,统计每个术语 K i 在报道 S 中的词频 t f is 和逆文档频率 id f i ,计算术语的权重,如公式(14)[7 ] 所示. ...
基于相关性模型的中文话题跟踪研究
2
2007
... 其中, w E i , T j 为事件 E i 和话题 T j 的相似度,采用余弦相似度公式计算,如公式(7)[14 ] 所示. ...
... TDT4数据集中每个文件中有多个报道,每篇报道以<doc>开始至</doc>结束.首先,切分文件,将文件中每篇报道独立存放,并将所有报道按发布时间排序.其次,每个话题取前4篇相关报道[14 ] ,构成初始建模数据集,剩余报道为待追踪数据集.为区分不同数据集中报道,待追踪数据集中的报道均称为新报道.最后,分别将建模数据集和待追踪数据集中报道分词、去停用词,统计每个术语 K i 在报道 S 中的词频 t f is 和逆文档频率 id f i ,计算术语的权重,如公式(14)[7 ] 所示. ...