基于贝叶斯网络的静态话题追踪模型*

图1 贝叶斯网络

Fig.1 Bayesian Network

其中,节点的集合 $V = {X_{1}, X_{2}, \dots, X_{7}}$ ,由条件独立性假设得到联合概率 $p (X_{1}, X_{2}, \dots, X_{7})$ ,如公式（1）^[9]所示。

（1）

p (X_{1}, X_{2}, \dots, X_{7}) = p (X_{i} | pa (X_{i}))

3 话题模型

话题模型是话题追踪的关键。在话题追踪前,每个话题给定最早发布的1-4篇样本报道,并将其作为话题核心追踪后续相关报道,从样本报道中提取一定数量的术语构成话题术语集。

3.1 模型独立性假设

假设1：术语间相互独立。即术语间不存在依赖关系,故术语节点间没有连线。

假设2：话题间相互独立。BNTT模型话题之间关系只通过索引它的术语体现,E_BNTT模型话题之间关系只通过话题包含的事件体现,话题节点之间没有连线。

假设3：如果已知事件 $E_{i}$ 和所有术语的相关情况, $E_{i}$ 和其他事件 $E_{k}$ 之间条件独立,即事件节点之间没有连线。当给定新报道 $S$ 时,表示为： $p (E_{i} |S, E_{k}) = p (E_{i} |S)$ 。

3.2 BNTT模型

由模型独立性假设,建立BNTT模型的拓扑结构,如图2所示。BNTT模型包括两类节点：术语节点和话题节点。话题节点由样本数据中已有话题确定,术语节点由样本报道特征提取获得。若 $K_{t}$ 是话题 $T_{j}$ 的索引术语,则有一条从节点 $K_{t}$ 指向节点 $T_{j}$ 的弧。

图2

图2 BNTT模型

Fig.2 BNTT Model

（1）模型的概率分布

术语节点 $K_{t}$ 为模型的根节点,由于事先不知道术语出现的概率,假设每个术语等概率发生,故先验概率 $p (K_{t}) = 1 / M$ ,其中, $M$ 为话题术语集中术语的总个数。

话题节点 $T_{j}$ ,用文献[7]中的估计函数得到条件概率 $p (T_{j} | pa (T_{j}))$ ,如公式（2）所示。

（2）

p (T_{j} | pa (T_{j})) = \sum_{\forall K_{t} \in pa (T_{j})} w_{t, T_{j}}

其中, $w_{t, T_{j}}$ 为术语 $K_{t}$ 在话题 $T_{j}$ 中的权重, $w_{t, T_{j}} \geq 0$ 且 $\sum_{K_{t} \in T_{j}} w_{t, T_{j}} \leq 1$ 。若 $pa (T_{j})$ 中术语增多,条件概率值增大。

（2）话题追踪过程

①将报道流中报道 $S$ 作为证据引入;

②计算报道 $S$ 和已有话题 $T_{j}$ 相似度 $sim (T_{j}, S)$ ;

③判定报道 $S$ 和话题 $T_{j}$ 的相关性,若相似度大于规定阈值,报道 $S$ 与话题 $T_{j}$ 相关,否则为不相关。

依据独立性假设和贝叶斯网络相关知识,借鉴文献[7]的思想, $sim (T_{j}, S)$ 的计算如公式（3）所示。

（3）

\begin{array}{l} sim (T_{j}, S) = p (T_{j}, S) \\ = η \sum_{\forall pa (T_{j})} p (T_{j} | pa (T_{j})) \times p (pa (T_{j}) | S) \\ = η \sum_{\forall K_{t} \in Pa (T_{j})} w_{t, T_{j}} \times p (K_{t} | S) \end{array}

其中, $η$ 为规范化常数。由术语间边缘独立性得到：若 $K_{t} \in S$ ,则 $p (K_{t} | S) = 1$ ;若 $K_{t} \notin S$ ,则 $p (K_{t} | S) = 1 / M$ ,即条件概率 $p (K_{t} | S)$ 可由公式（4）^[7]计算得到。

（4）

p (K_{t} | S) = \{\begin{matrix} 1 & \forall K_{t} \in S \\ 1 / M & else \end{matrix}

3.3 E_BNTT模型

一个话题伴随着若干个事件,每个事件描述话题的不同侧面^[13],将话题划分为事件更利于追踪话题的各个方面。通过描述事件的术语可以发现同一话题事件的变化。当话题用固定数量的术语表示时,若术语个数少对话题描述会不全面;术语个数多则可能引入噪声,但不同事件中噪声往往不同,因此添加事件节点有助于削弱噪声的影响。

依据3.1节模型独立性假设,在BNTT模型中添加事件节点,构建E_BNTT模型的拓扑结构,如图3所示。E_BNTT模型包括三类节点：术语节点 $K_{t}$ 、事件节点 $E_{i}$ 和话题节点 $T_{j}$ 。若事件 $E_{i}$ 属于话题 $T_{j}$ ,则有一条从节点 $E_{i}$ 指向节点 $T_{j}$ 的弧,若 $K_{t}$ 是事件 $E_{i}$ 的索引术语,则有一条从节点 $K_{t}$ 指向节点 $E_{i}$ 的弧。

图3

图3 E_BNTT模型

Fig.3 E_BNTT Model

话题节点确定方式同BNTT模型,事件节点由样本报道分类确定,将事件的相关报道特征提取一定数量的术语,构成事件术语集。事件节点的确定方法步骤如下：

①将样本报道按发布时间排序,第一篇报道归为第一个事件;

②计算未归类报道与已有事件相似度;

③若最大相似度大于 $δ (0 \leq δ \leq 1)$ ,将该报道归为该事件;否则添加新事件且将该报道归为新事件;

④重复步骤②和步骤③直到所有样本报道分类完成。

（1）模型的概率分布

术语节点 $K_{t}$ 为模型的根节点,先验概率 $p (K_{t}) = 1 / M$ 。事件节点 $E_{i}$ ,需估计 $E_{i}$ 的条件概率 $p (E_{i} | pa (E_{i}))$ ,估计方法如公式（5）所示。

（5）

p (E_{i} | pa (E_{i})) = \sum_{\forall K_{t} \in Pa (E_{i})} p (E_{i} | K_{t}) = \sum_{\forall K_{t} \in Pa (E_{i})} w_{t, E_{i}}

其中, $w_{t, E_{i}}$ 为术语 $K_{t}$ 在事件 $E_{i}$ 中的权重, $w_{t, E_{i}} \geq 0$ 且 $\sum_{K_{t} \in E_{i}} w_{t, E_{i}} \leq 1$ 。

话题节点 $T_{j}$ ,需估计 $T_{j}$ 的条件概率 $p (T_{j} | pa (T_{j}))$ ,方法如公式（6）所示。

（6）

p (T_{j} | pa (T_{j})) = \sum_{\forall E_{i} \in Pa (T_{j})} p (T_{j} | E_{i}) = \sum_{\forall E_{i} \in Pa (T_{j})} w_{E_{i}, T_{j}}

其中, $w_{E_{i}, T_{j}}$ 为事件 $E_{i}$ 和话题 $T_{j}$ 的相似度,采用余弦相似度公式计算,如公式（7）^[14]所示。

（7）

w_{E_{i}, T_{j}} = \frac{\sum w_{l, T_{j}} \times w_{l, E_{i}}}{\sqrt[]{\sum w_{l, T_{j}}^{2}} \times \sqrt[]{\sum w_{l, E_{i}}^{2}}}

其中, $w_{l, T_{j}}$ 为术语 $K_{l}$ 在话题 $T_{j}$ 中的权重, $w_{l, E_{i}}$ 为术语 $K_{l}$ 在事件 $E_{i}$ 中的权重。

（2）话题追踪过程

①将报道流中报道 $S$ 作为证据引入;

②通过计算报道 $S$ 和任意事件 $E_{i}$ 的相似度 $p (E_{i} | S)$ ,事件 $E_{i}$ 和话题 $T_{j}$ 的相似度 $w_{E_{i}, T_{j}}$ ,得到报道 $S$ 和已有话题 $T_{j}$ 相似度 $sim (T_{j}, S)$ ;

③判定报道 $S$ 和话题 $T_{j}$ 的相关性,若相似度大于规定阈值,报道 $S$ 与话题 $T_{j}$ 相关,否则为不相关。

依据独立性假设和贝叶斯网络相关知识,报道 $S$ 和已有话题 $T_{j}$ 相似度计算方法如公式（8）所示。

（8）

\begin{array}{l} sim (T_{j}, S) = p (T_{j} | S) \\ = β \sum_{\forall pa (T_{j})} p (T_{j} | p (T_{j})) \times p (pa (T_{j}) | S) \\ = β \sum_{\forall E_{i} \in Pa (T_{j})} w_{E_{i}, T_{j}} \times p (E_{i} | S) \end{array}

其中, $β$ 为规范化常数, $p (E_{i} | S)$ 为事件 $E_{i}$ 和报道 $S$ 的相似度,如公式（9）^[7]所示。其中条件概率 $p (K_{t} | S)$ 由公式（4）计算。

（9）

\begin{array}{l} p (E_{i} | S) = \sum_{\forall pa (E_{i})} p (E_{i} | pa (E_{i})) \times p (pa (E_{i}) | S) \\ = w_{t, E_{i}} \times p (K_{t} | S) \end{array}

4 实验

本文通过三个实验验证新模型的性能。

（1）在 $δ$ 不同取值情况下,统计BNTT模型的追踪性能,确定划分事件的参数 $δ$ ;

（2）统计不同阈值下模型的漏报率和误报率,绘制DET曲线,比较向量空间话题模型和BNTT模型的性能;

（3）计算模型的 $optimal ((C_{\det})_{norm})$ 值,比较BNTT模型和E_BNTT模型的性能。

4.1 实验数据集

实验使用通用数据集TDT4语料库进行评测。TDT4共有98 245篇新闻报道,包括APW,NYT,ABC,VOA等20个新闻来源从2000年10月到2001年11月的新闻报道,涉及英文、中文、阿拉伯语三种语言。美国语言数据联盟(Linguistic Data Consortium, LDC)对其中40个新闻话题进行标注,标注了话题的相关报道和不相关报道。本文使用TDT4语料库中的中文报道对模型进行性能检测。

4.2 性能评价指标

（1） DET曲线

DET（Detection Error Trade-off）曲线统计了不同阈值下的漏报率 $P_{miss}$ 和误报率 $P_{fa}$ ,曲线越靠近坐标原点,模型性能越好。漏报率 $P_{miss}$ 和误报率 $P_{fa}$ 的计算如公式（10）和公式（11）所示^[6]。其中,参数 $a$ , $b$ , $c$ , $d$ 的意义如表1所示。

（10）

P_{miss} = \frac{c}{a + c}

（11）

P_{fa} = \frac{b}{b + d}

表1 参数说明

Table 1 Parameters Description

	真实为“是”	真实为“否”
模型判断为“是”	$a$	$b$
模型判断为“否”	$c$	$d$

新窗口打开| 下载CSV

（2）最优性能 $optimal ((C_{\det})_{norm})$

$optimal ((C_{\det})_{norm}) = \min ((C_{\det})_{norm})$ ,该值越小表示模型性能越好。 $C_{\det}$ 是识别代价指标,将漏报率（Miss Probability）和误报率（False Alarm Probability）两个值归一化,并赋予一定的评估代价参数得到代价指标,如公式（12）^[6]所示; $(C_{\det})_{norm}$ 是 $C_{\det}$ 的标准化,如公式（13）^[6]所示。

（12）

C_{\det} = C_{miss} \times P_{miss} \times P_{target} + C_{fa} \times P_{fa} \times P_{non_target}

（13）

(C_{\det})_{norm} = \frac{C_{\det}}{Min (C_{miss} \times P_{target} + C_{fa} \times P_{non_target})}

其中 $C_{miss}$ 和 $C_{fa}$ 分别表示漏报代价和误报代价, $P_{target}$ 表示发现新报道的概率,这三个值均为预设值, $P_{miss}$ 和 $P_{f a}$ 分别表示漏报率和误报率, $P_{non_target} = 1 - P_{target}$ 。TDT评测会议给定话题追踪任务中 $C_{miss}$ , $C_{fa}$ , $P_{target}$ , $P_{non_target}$ 等4个值分别为1.00,0.10,0.02,0.98。

4.3 实验过程及分析

（1）数据预处理

TDT4数据集中每个文件中有多个报道,每篇报道以<doc>开始至</doc>结束。首先,切分文件,将文件中每篇报道独立存放,并将所有报道按发布时间排序。其次,每个话题取前4篇相关报道^[14],构成初始建模数据集,剩余报道为待追踪数据集。为区分不同数据集中报道,待追踪数据集中的报道均称为新报道。最后,分别将建模数据集和待追踪数据集中报道分词、去停用词,统计每个术语 $K_{i}$ 在报道 $S$ 中的词频 $t f_{is}$ 和逆文档频率 $id f_{i}$ ,计算术语的权重,如公式（14）^[7]所示。

（14）

w_{is} = α^{- 1} \frac{t f_{is} \times id f_{i}^{2}}{\sqrt[]{\sum_{\forall K_{t} \in S} t f_{ts} \times id {f_{t}}^{2}}}

其中, $α$ 为规范化常数,以确保 $\sum_{K_{t} \in T_{j}} w_{t, T_{j}} \leq 1$ 和 $\sum_{K_{t} \in E_{i}} w_{t, E_{i}} \leq 1$ 。

（2）实验过程

①话题建模。话题集由TDT4中话题构成,BNTT模型和向量空间话题模型构建时,每个话题由4篇样本报道中的术语描述,所有话题的术语构成话题术语集。E_BNTT模型构建时,每个话题将4篇样本报道按3.3节中的步骤划分为事件,每个事件由其相关报道中的术语描述,所有事件的术语构成事件术语集。

②计算相似度。BNTT模型,E_BNTT模型和向量空间话题模型分别用公式（3）、公式（8）和余弦公式,计算新报道 $S$ 和话题 $T_{j}$ 的相似度。

③阈值判断。将步骤②中计算的相似度与设定阈值比较,大于阈值标注新报道 $S$ 和话题 $T_{j}$ 相关,否则标注为不相关。

④重复步骤②与步骤③,直到待测报道集中所有报道标记完成。

（3）确定参数

事件的划分是E_BNTT模型性能的关键,不同的参数 $δ$ ,将样本报道划分为不同事件,产生不同的追踪效果。 $δ \leq 0.05$ 时所有样本报道划分为一个事件, $δ \geq 0.35$ 时多数话题的每篇样本报道独立为一个事件,随 $δ$ 增大模型性能变化很小,故实验分别在 $δ$ 取0.05,0.10,0.15,0.20,0.25,0.30,0.35时计算E_BNTT模型的 $optimal ((C_{\det})_{norm})$ 值,实验结果如表2所示。

表2 参数 $δ$ 不同取值下E_BNTT模型性能

Table 2 Performance of E_BNTT Model with Different Values of Parameter $δ$

$δ$	$P_{miss}$	$P_{fa}$	$optimal ((C_{\det})_{norm})$
0.05	0.093 46	0.012 81	0.156 21
0.10	0.074 77	0.013 15	0.139 22
0.15	0.065 42	0.015 58	0.141 74
0.20	0.062 31	0.018 00	0.150 50
0.25	0.096 57	0.015 58	0.172 90
0.30	0.093 46	0.016 61	0.174 87
0.35	0.115 26	0.020 08	0.213 64

新窗口打开| 下载CSV

由表2可知参数 $δ$ 取值影响模型性能。观察表中模型 $optimal ((C_{\det})_{norm})$ 值可以发现,当 $δ = 0.10$ 时, $optimal ((C_{\det})_{norm})$ 值最小,即模型性能最好,故本文 $δ$ 取值0.10。

（4）实验结果分析

①BNTT模型和向量空间话题模型性能比较

实验在不同阈值下的标注结果与TDT4数据集中标注结果对比,得到BNTT模型和向量空间话题模型的漏报率、误报率,绘制DET曲线如图4所示。

图4

图4 BNTT模型和向量空间话题模型性能对比

Fig.4 Performance of BNTT and VSM

每个话题由4篇样本报道描述,样本报道中术语构成话题的核心,话题核心比单篇报道的内容能更准确地描述话题。BNTT模型在计算新报道和话题相似度时主要由话题中术语权重确定,更注重话题核心的影响。由图4可知,BNTT模型DET曲线在向量空间话题模型DET曲线下方,同一阈值下BNTT模型的漏报率和误报率较小,BNTT模型追踪性能更好。

②E_BNTT模型和BNTT模型性能比较

计算E_BNTT模型和BNTT模型的 $optimal ((C_{\det})_{norm})$ 值,统计结果如表3所示。

表3 BNTT模型和E_BNTT模型性能对比

Table 3 Performance of BNTT and E_BNTT

性能模型	BNTT	E_BNTT
$P_{miss}$	0.093 46	0.065 42
$P_{fa}$	0.012 81	0.015 58
$optimal ((C_{\det})_{norm})$	0.156 21	0.139 22

新窗口打开| 下载CSV

从表3可知,E_BNTT模型比BNTT模型 $optimal ((C_{\det})_{norm})$ 值降低了约0.017,添加事件节点后模型能较好地把握话题各方面的内容,追踪效果更好。每个事件是话题的一个子类,事件间的相同部分是话题的核心部分,噪声往往在事件间的不同部分。添加事件节点后在计算报道和话题的相似度时,核心部分会被加强,噪声部分会被削弱。实验结果显示E_BNTT模型较BNTT模型性能提高较少,主要因为话题是随着时间推移逐渐演化的,话题演化会产生新事件。本文提出的E_BNTT模型中事件是由发布最早的4篇样本报道确定,并未动态更新,但将话题划分成不同事件可为日后研究事件的动态变化奠定基础。

5 结语

本文将贝叶斯网络用于话题识别与追踪,给出BNTT模型、E_BNTT模型拓扑结构和概率计算公式,并通过实验验证了两个模型的性能。实验结果表明,与向量空间话题模型相比,BNTT模型计算报道和话题相似度时更注重话题核心的影响,追踪性能更好;E_BNTT模型通过添加一层事件节点挖掘报道、事件和话题间的关系,较BNTT模型,进一步提高了追踪性能。本文提出的话题追踪模型属于静态模型,在话题追踪过程中两个模型的话题核心保持不变,适用于对准确率要求高的领域,但随着时间推移,话题演化会产生新事件,新模型未做更新,漏报率会相应提高。在未来工作中,将考虑构建自适应的追踪模型,以更好地模拟话题的演化;利用贝叶斯网络检索模型易于扩展的特性,挖掘语义关系和话题间关系,更准确全面描述话题,提高话题追踪性能。

作者贡献声明

徐建民：提出论文选题与研究思路,设计研究方案,修改论文;

张丽青：研究方案实施,论文撰写,数据分析,实验设计与结果分析;

王苗：实验设计与结果分析,论文修改。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: 1031015476@qq.com。

[1] 张丽青. TDT4语料库.rar. 购买的官方实验数据集.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

洪宇, 仓玉, 姚建民 , 等.

话题跟踪中静态和动态话题模型的核捕捉衰减

[J]. 软件学报, 2012,23(5):1100-1119.

( Hong

, Cang

, Yao

Jianmin

, et al.

Descending Kernel Track of Static and Dynamic Topic Models in Topic Tracking

[J]. Journal of Software, 2012,23(5):1100-1119.)

[2]

Allan

, Papka

, Lavrenko

On-Line New Event Detection and Tracking

[C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 37-75.

[3]

屈庆涛, 刘其成, 牟春晓 .

基于N-Gram语言模型的并行自适应新闻话题追踪算法

[J]. 山东大学学报:工学版, 2018,48(6):37-43.

( Qu

Qingtao

, Liu

Qicheng

, Mu

Chunxiao

A Parallel Adaptive News Topic Tracking Algorithm Based on N-Gram Language Model

[J]. Journal of Shandong University: Engineering Science, 2018,48(6):37-43.)

[4]

王亚民, 胡悦 .

基于BTM的微博舆情热点发现

[J]. 情报杂志, 2016,35(11):119-124, 140.

( Wang

Yamin

, Hu

Yue

Hotspot Detection in Microblog Public Opinion Based on Biterm Topic Model

[J]. Journal of Intelligence, 2016,35(11):119-124, 140.)

[5]

宋莉娜, 冯旭鹏, 刘利军 , 等.

基于SOM聚类的微博话题发现

[J]. 计算机应用研究, 2018,35(3):671-674, 679.

( Song

Lina

, Feng

Xupeng

, Liu

Lijun

, et al.

Microblog Topics Detection Based on SOM Clustering

[J]. Application Research of Computers, 2018,35(3):671-674, 679.)

[6]

Xu J

, Wu S

, Hong

Topic Tracking with Bayesian Belief Network

[J]. Optik, 2014,125(9):2164-2169.

[本文引用: 4]

[7]

De Campos L

, Fernández-Luna J

, Huete J

The BNR Model: Foundations and Performance of a Bayesian Network-Based Retrieval Model

[J]. International Journal of Approximate Reasoning, 2003,34(2-3):265-285.

[本文引用: 6]

[8]

Doddington

, Fiscus

. The 2002 Topic Detection and Tracking (TDT2002) Task Definition and Evaluation Plan[R]. 2002.

[9]

郑伟, 侯宏旭, 武静 .

贝叶斯网络在信息检索中的应用

[J]. 情报科学, 2018,36(6):136-141.

( Zheng

Wei

, Hou

Hongxu

, Wu

Jing

Application of Bayesian Network for Information Retrieval

[J]. Information Science, 2018,36(6):136-141.)

[10]

Turtle H

, Croft W

Inference Networks for Document Retrieval

[C]// Proceedings of the 13th SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1989: 1-24.

[11]

Ribeiro-Neto B A

, Muntz

A Belief Network Model for IR

[C]// Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1996: 253-260.

[12]

Acid

, De Campos

L M

, Fernández-Luna

J M

, et al.

An Information Retrieval Model Based on Simple Bayesian Networks

[J]. International Journal of Intelligent Systems, 2003,18(2):251-265.

[13]

周楠, 杜攀, 靳小龙 , 等.

面向舆情事件的子话题标签生成模型ET-TAG

[J]. 计算机学报, 2018,41(7):1490-1503.

( Zhou

Nan

, Du

Pan

, Jin

Xiaolong

, et al.

ET-TAG: A Tag Generation Model for the Sub-Topic of Public Opinion Events

[J]. Chinese Journal of Computers, 2018,41(7):1490-1503.)

[14]

郑伟, 张宇, 邹博伟 , 等.

基于相关性模型的中文话题跟踪研究

[C]// 第九届全国计算语言学学术会议论文集. 中国中文信息学会, 2007: 558-563.

( Zheng

Wei

, Zhang

, Zou

Bowei

, et al.

Research of Chinese Topic Tracking Based on Relevance Model

[C]// Proceedings of the 9th China National Conference on Computational Linguistics. Chinese Information Processing Society of China, 2007: 558-563.)