Advanced Search

数据分析与知识发现, 2020, 4(2/3): 200-206 doi: 10.11925/infotech.2096-3467.2019.0634

专辑

基于贝叶斯网络的静态话题追踪模型*

徐建民,, 张丽青, 王苗

河北大学网络空间安全与计算机学院 保定 071002

Tracking Static Topics with Bayesian Network

Xu Jianmin,, Zhang Liqing, Wang Miao

School of Cyber Security and Computer, Hebei University, Baoding 071002, China

通讯作者: 徐建民,ORCID:0000-0001-6050-8058,E-mail:hbuxjm@hbu.edu.cn

收稿日期: 2019-06-10   修回日期: 2019-08-5   网络出版日期: 2020-02-25

基金资助: *本文系河北省社会科学基金项目“京津冀协同发展网络热点话题发现及其应用研究”的研究成果之一.  HB15SH064

Received: 2019-06-10   Revised: 2019-08-5   Online: 2020-02-25

摘要

【目的】 通过分析贝叶斯网络在话题追踪中的可行性,提出一种话题追踪新方法,以提高追踪性能和追踪效率。【方法】 将贝叶斯网络相关知识应用到话题追踪,分别构建贝叶斯网络话题追踪模型和扩展贝叶斯网络话题追踪模型。模型中节点表示术语、事件和话题,弧表示节点间关系,话题、事件和报道间的相似度利用推理加估计的方法得到。【结果】 在TDT4数据集上的实验结果表明,与向量空间话题模型相比,贝叶斯网络话题追踪模型的DET曲线在下方,追踪性能明显提高;扩展贝叶斯网络话题追踪模型较贝叶斯网络话题追踪模型,追踪性能提高1.7%。【局限】 扩展贝叶斯网络话题追踪模型是一种静态话题模型,但事件是随话题演化产生的,故扩展贝叶斯网络话题追踪模型性能的提升并不显著。【结论】 新模型能准确描述话题、事件和报道间的结构关系,概率推导效率高,可有效提升话题追踪的性能。

关键词: 贝叶斯网络 ; 话题追踪 ; 事件 ; 静态话题模型

Abstract

[Objective] The paper analyzed the feasibility of using Bayesian network for topic tracking, and proposed a new method to improve its performance.[Methods] We constructed two topic tracking models, one with Bayesian Network, and the other with Extended Bayesian Network. The nodes in the models represent terms, events and topics, while the arcs represent relationships among nodes. Finally, we calculated the similarity among topics, events and reports with the Propagation and Evaluation method.[Results] We examined our models on TDT4 data set and found the DET curve of the Bayesian Network model was below the curve of vector space topic model, the former had better performance. The result of extended Bayesian network topic tracking model was 1.7% higher than the first one.[Limitations] Extended Bayesian network topic tracking model was a static topic model while events were generated by the evolution of topics, so the model had limited performance improvement.[Conclusions] The new models can describe the structural relationships among topics, events and stories, and conduct probability inference, which improve the performance of topic tracking effectively.

Keywords: Bayesian Network ; Topic Tracking ; Event ; Static Topic Model

PDF (710KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

徐建民, 张丽青, 王苗. 基于贝叶斯网络的静态话题追踪模型*. 数据分析与知识发现[J], 2020, 4(2/3): 200-206 doi:10.11925/infotech.2096-3467.2019.0634

Xu Jianmin. Tracking Static Topics with Bayesian Network. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 200-206 doi:10.11925/infotech.2096-3467.2019.0634

1 引 言

随着网络信息的快速增长,从繁杂的信息中获取用户真正关注的新闻信息越来越困难,为解决该问题,1996年美国国防高级研究项目局制定了话题识别与追踪的任务划分和具体的评测方法,追踪技术逐步成为研究热点。话题追踪技术能有效组织海量数据、挖掘有用信息,在网络监控领域和信息管理领域中已经得到广泛应用。话题追踪系统主要包括:话题模型、相关性判定机制和阈值估计[1]。话题模型是由话题内容和语义组成的基本框架,决定话题追踪系统的性能。

Allan等[2]将向量空间模型用于话题建模,提出基于向量空间的话题模型。模型采用词袋表示文本,不能直观模拟话题的演化过程。屈庆涛等[3]在贝叶斯分类基础上,提出融合N-Gram语言模型的追踪算法,通过拉普拉斯变换进行数据处理,但并未彻底解决数据稀疏性问题。王亚民等[4]利用BTM(Biterm Topic Model)对话题建模,通过改进TF-IDF权重计算公式,采用K-means聚类算法分类,解决了部分文本建模中高维度和稀疏性问题,但不同的初始聚类中心会导致聚类效果不同,算法性能不稳定。宋莉娜等[5]将自组织映射(Self-Organizing Mapping,SOM)算法用于话题建模,利用词向量模型进行文本特征提取,解决了传统聚类方法带来的维度过高的问题,但SOM聚类效果不理想,时间复杂度高。Xu等[6]将贝叶斯网络用于话题识别与追踪,提出的信念网络话题模型性能优于向量空间话题模型,因推导过程繁琐且条件概率最终转为向量相似度计算,导致效率偏低。

贝叶斯网络检索模型采用推理加估计的方法,在保证准确率的前提下,简化了概率推导,提高了模型的效率,节省了推导过程中数据占用的空间[7]。本文借鉴贝叶斯网络检索模型的思想,提出贝叶斯网络话题追踪(Bayesian Network Topic Tracking,BNTT)模型。考虑事件便于观察和追踪话题的各个方面,在BNTT模型基础上添加一层事件节点,构建扩展贝叶斯网络话题追踪(Extend Bayesian Network Topic Tracking,E_BNTT)模型。本文主要贡献如下:

(1)建立BNTT模型和E_BNTT模型的拓扑结构。BNTT模型的拓扑结构是含术语和话题两层节点的有向图,E_BNTT模型的拓扑结构是含术语、事件和话题三层节点的有向图,弧的指向表明包含关系。

(2)由模型独立性假设、推理加估计方法和贝叶斯网络相关知识,提出BNTT模型和E_BNTT模型的概率计算公式。

2 相关知识

2.1 话题追踪相关概念

话题追踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其核心任务是从时序排列的新闻报道流中,实时识别和挖掘关于特定新闻话题的系列相关报道,其关键问题之一是如何建立符合话题形态的统计模型[1]

话题模型是话题追踪系统重要的研究内容之一,旨在建立一种描述新闻话题核心内容的模型。从模型是否动态更新角度,话题模型可分为静态话题模型和动态话题模型。静态话题模型强调话题初始核心的守恒性,动态话题模型则注重话题核心随着后续相关报道的出现而动态更新。

TDT(Topic Detection and Tracking)评测会议给出了话题识别与追踪中相关概念的定义[8]

定义1 话题(Topic):一个种子事件或活动,以及所有与之直接相关的事件或活动。

定义2 事件(Event):由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的新闻信息。

定义3 报道(Story):与话题紧密相关、包含两个或多个独立陈述某个事件的子句的新闻片段。

2.2 贝叶斯网络

贝叶斯网络是一种描述变量间不确定性因果关系的图形网络,常用于不确定性系统建模和推理,已经成功应用于信息检索领域[9]。基于贝叶斯网络的检索模型主要包括推理网络模型[10]、信念网络模型[11]和贝叶斯网络模型[12]。话题的产生、识别、追踪与演化等具有不确定性,为将贝叶斯网络应用到话题识别与追踪提供了可能。

贝叶斯网络由定量和定性两部分组成。定性部分是一个有向无环图(Directed Acyclic Graph, DAG),可记为 G=V,E,其中 V是节点的集合, E是有向弧的集合。从概率推导角度考虑,任意节点 Xi可理解为一个随机变量,弧表示变量间的依赖关系。

定量部分是基于DAG得到的条件概率分布表集。每个变量 XiV都对应一个条件概率分布表 p(Xi|pa(Xi)), Pa(Xi)Xi的父节点集合, pa(Xi)Pa(Xi)的任意子集。条件概率值表示变量间关系的紧密程度。贝叶斯网络蕴含了条件独立性假设,网络中的任意节点与其非子节点条件独立,即在概率推导中不考虑非子节点的影响,如图1所示。

图1

图1   贝叶斯网络

Fig.1   Bayesian Network


其中,节点的集合 V={X1,X2,,X7},由条件独立性假设得到联合概率 p(X1,X2,,X7),如公式(1)[9]所示。

p(X1,X2,,X7)=p(Xi|pa(Xi))

3 话题模型

话题模型是话题追踪的关键。在话题追踪前,每个话题给定最早发布的1-4篇样本报道,并将其作为话题核心追踪后续相关报道,从样本报道中提取一定数量的术语构成话题术语集。

3.1 模型独立性假设

假设1:术语间相互独立。即术语间不存在依赖关系,故术语节点间没有连线。

假设2:话题间相互独立。BNTT模型话题之间关系只通过索引它的术语体现,E_BNTT模型话题之间关系只通过话题包含的事件体现,话题节点之间没有连线。

假设3:如果已知事件 Ei和所有术语的相关情况, Ei和其他事件 Ek之间条件独立,即事件节点之间没有连线。当给定新报道 S时,表示为: pEiS,Ek=pEiS

3.2 BNTT模型

由模型独立性假设,建立BNTT模型的拓扑结构,如图2所示。BNTT模型包括两类节点:术语节点和话题节点。话题节点由样本数据中已有话题确定,术语节点由样本报道特征提取获得。若 Kt是话题 Tj的索引术语,则有一条从节点 Kt指向节点 Tj的弧。

图2

图2   BNTT模型

Fig.2   BNTT Model


(1) 模型的概率分布

术语节点 Kt为模型的根节点,由于事先不知道术语出现的概率,假设每个术语等概率发生,故先验概率 p(Kt)=1/M,其中, M为话题术语集中术语的总个数。

话题节点 Tj,用文献[7]中的估计函数得到条件概率 p(Tj|pa(Tj)),如公式(2)所示。

p(Tj|pa(Tj))=Ktpa(Tj)wt,Tj

其中, wt,Tj为术语 Kt在话题 Tj中的权重, wt,Tj0KtTjwt,Tj1。若 pa(Tj)中术语增多,条件概率值增大。

(2) 话题追踪过程

①将报道流中报道 S作为证据引入;

②计算报道 S和已有话题 Tj相似度 sim(Tj,S);

③判定报道 S和话题 Tj的相关性,若相似度大于规定阈值,报道 S与话题 Tj相关,否则为不相关。

依据独立性假设和贝叶斯网络相关知识,借鉴文献[7]的思想, sim(Tj,S)的计算如公式(3)所示。

sim(Tj,S)=p(Tj,S)=ηpa(Tj)p(Tj|pa(Tj))×p(pa(Tj)|S)=ηKtPa(Tj)wt,Tj×p(Kt|S)

其中, η为规范化常数。由术语间边缘独立性得到:若 KtS,则 p(Kt|S)=1;若 KtS,则 p(Kt|S)=1/M,即条件概率 p(Kt|S)可由公式(4)[7]计算得到。

p(Kt|S)=1KtS1/Melse

3.3 E_BNTT模型

一个话题伴随着若干个事件,每个事件描述话题的不同侧面[13],将话题划分为事件更利于追踪话题的各个方面。通过描述事件的术语可以发现同一话题事件的变化。当话题用固定数量的术语表示时,若术语个数少对话题描述会不全面;术语个数多则可能引入噪声,但不同事件中噪声往往不同,因此添加事件节点有助于削弱噪声的影响。

依据3.1节模型独立性假设,在BNTT模型中添加事件节点,构建E_BNTT模型的拓扑结构,如图3所示。E_BNTT模型包括三类节点:术语节点 Kt、事件节点 Ei和话题节点 Tj。若事件 Ei属于话题 Tj,则有一条从节点 Ei指向节点 Tj的弧,若 Kt是事件 Ei的索引术语,则有一条从节点 Kt指向节点 Ei的弧。

图3

图3   E_BNTT模型

Fig.3   E_BNTT Model


话题节点确定方式同BNTT模型,事件节点由样本报道分类确定,将事件的相关报道特征提取一定数量的术语,构成事件术语集。事件节点的确定方法步骤如下:

①将样本报道按发布时间排序,第一篇报道归为第一个事件;

②计算未归类报道与已有事件相似度;

③若最大相似度大于 δ0δ1,将该报道归为该事件;否则添加新事件且将该报道归为新事件;

④重复步骤②和步骤③直到所有样本报道分类完成。

(1) 模型的概率分布

术语节点 Kt为模型的根节点,先验概率 p(Kt)=1/M。事件节点 Ei,需估计 Ei的条件概率 p(Ei|pa(Ei)),估计方法如公式(5)所示。

p(Ei|pa(Ei))=KtPa(Ei)p(Ei|Kt)=KtPa(Ei)wt,Ei

其中, wt,Ei为术语 Kt在事件 Ei中的权重, wt,Ei0KtEiwt,Ei1

话题节点 Tj,需估计 Tj的条件概率 p(Tj|pa(Tj)),方法如公式(6)所示。

p(Tj|pa(Tj))=EiPa(Tj)p(Tj|Ei)=EiPa(Tj)wEi,Tj

其中, wEi,Tj为事件 Ei和话题 Tj的相似度,采用余弦相似度公式计算,如公式(7)[14]所示。

wEi,Tj=wl,Tj×wl,Eiwl,Tj2×wl,Ei2

其中, wl,Tj为术语 Kl在话题 Tj中的权重, wl,Ei为术语 Kl在事件 Ei中的权重。

(2) 话题追踪过程

①将报道流中报道 S作为证据引入;

②通过计算报道 S和任意事件 Ei的相似度 p(Ei|S),事件 Ei和话题 Tj的相似度 wEi,Tj,得到报道 S和已有话题 Tj相似度 sim(Tj,S);

③判定报道 S和话题 Tj的相关性,若相似度大于规定阈值,报道 S与话题 Tj相关,否则为不相关。

依据独立性假设和贝叶斯网络相关知识,报道 S和已有话题 Tj相似度计算方法如公式(8)所示。

sim(Tj,S)=p(Tj|S)=βpa(Tj)p(Tj|p(Tj))×p(pa(Tj)|S)=βEiPa(Tj)wEi,Tj×p(Ei|S)

其中, β为规范化常数, p(Ei|S)为事件 Ei和报道 S的相似度,如公式(9)[7]所示。其中条件概率 p(Kt|S)由公式(4)计算。

p(Ei|S)=pa(Ei)p(Ei|pa(Ei))×p(pa(Ei)|S)=wt,Ei×p(Kt|S)

4 实 验

本文通过三个实验验证新模型的性能。

(1)在 δ不同取值情况下,统计BNTT模型的追踪性能,确定划分事件的参数 δ;

(2)统计不同阈值下模型的漏报率和误报率,绘制DET曲线,比较向量空间话题模型和BNTT模型的性能;

(3)计算模型的 optimal((Cdet)norm)值,比较BNTT模型和E_BNTT模型的性能。

4.1 实验数据集

实验使用通用数据集TDT4语料库进行评测。TDT4共有98 245篇新闻报道,包括APW,NYT,ABC,VOA等20个新闻来源从2000年10月到2001年11月的新闻报道,涉及英文、中文、阿拉伯语三种语言。美国语言数据联盟(Linguistic Data Consortium, LDC)对其中40个新闻话题进行标注,标注了话题的相关报道和不相关报道。本文使用TDT4语料库中的中文报道对模型进行性能检测。

4.2 性能评价指标

(1) DET曲线

DET(Detection Error Trade-off)曲线统计了不同阈值下的漏报率 Pmiss和误报率 Pfa,曲线越靠近坐标原点,模型性能越好。漏报率 Pmiss和误报率 Pfa的计算如公式(10)和公式(11)所示[6]。其中,参数 a, b, c, d的意义如表1所示。

Pmiss=ca+c
Pfa=bb+d

表1   参数说明

Table 1  Parameters Description

真实为“是”真实为“否”
模型判断为“是”ab
模型判断为“否”cd

新窗口打开| 下载CSV


(2) 最优性能 optimal((Cdet)norm)

optimal((Cdet)norm)=min((Cdet)norm),该值越小表示模型性能越好。 Cdet是识别代价指标,将漏报率(Miss Probability)和误报率(False Alarm Probability)两个值归一化,并赋予一定的评估代价参数得到代价指标,如公式(12)[6]所示; (Cdet)normCdet的标准化,如公式(13)[6]所示。

Cdet=Cmiss×Pmiss×Ptarget+Cfa×Pfa×Pnon_target
(Cdet)norm=CdetMin(Cmiss×Ptarget+Cfa×Pnon_target)

其中 CmissCfa分别表示漏报代价和误报代价, Ptarget表示发现新报道的概率,这三个值均为预设值, PmissPfa分别表示漏报率和误报率, Pnon_target=1-Ptarget。TDT评测会议给定话题追踪任务中 Cmiss, Cfa, Ptarget, Pnon_target等4个值分别为1.00,0.10,0.02,0.98。

4.3 实验过程及分析

(1) 数据预处理

TDT4数据集中每个文件中有多个报道,每篇报道以<doc>开始至</doc>结束。首先,切分文件,将文件中每篇报道独立存放,并将所有报道按发布时间排序。其次,每个话题取前4篇相关报道[14],构成初始建模数据集,剩余报道为待追踪数据集。为区分不同数据集中报道,待追踪数据集中的报道均称为新报道。最后,分别将建模数据集和待追踪数据集中报道分词、去停用词,统计每个术语 Ki在报道 S中的词频 tfis和逆文档频率 idfi,计算术语的权重,如公式(14)[7]所示。

wis=α-1tfis×idfi2KtStfts×idft2

其中, α为规范化常数,以确保 KtTjwt,Tj1KtEiwt,Ei1

(2) 实验过程

①话题建模。话题集由TDT4中话题构成,BNTT模型和向量空间话题模型构建时,每个话题由4篇样本报道中的术语描述,所有话题的术语构成话题术语集。E_BNTT模型构建时,每个话题将4篇样本报道按3.3节中的步骤划分为事件,每个事件由其相关报道中的术语描述,所有事件的术语构成事件术语集。

②计算相似度。BNTT模型,E_BNTT模型和向量空间话题模型分别用公式(3)、公式(8)和余弦公式,计算新报道 S和话题 Tj的相似度。

③阈值判断。将步骤②中计算的相似度与设定阈值比较,大于阈值标注新报道 S和话题 Tj相关,否则标注为不相关。

④重复步骤②与步骤③,直到待测报道集中所有报道标记完成。

(3) 确定参数

事件的划分是E_BNTT模型性能的关键,不同的参数 δ,将样本报道划分为不同事件,产生不同的追踪效果。 δ0.05时所有样本报道划分为一个事件, δ0.35时多数话题的每篇样本报道独立为一个事件,随 δ增大模型性能变化很小,故实验分别在 δ取0.05,0.10,0.15,0.20,0.25,0.30,0.35时计算E_BNTT模型的 optimal((Cdet)norm)值,实验结果如表2所示。

表2   参数δ不同取值下E_BNTT模型性能

Table 2  Performance of E_BNTT Model with Different Values of Parameterδ

δPmissPfaoptimal((Cdet)norm)
0.050.093 460.012 810.156 21
0.100.074 770.013 150.139 22
0.150.065 420.015 580.141 74
0.200.062 310.018 000.150 50
0.250.096 570.015 580.172 90
0.300.093 460.016 610.174 87
0.350.115 260.020 080.213 64

新窗口打开| 下载CSV


表2可知参数 δ取值影响模型性能。观察表中模型 optimal((Cdet)norm)值可以发现,当 δ=0.10时, optimal((Cdet)norm)值最小,即模型性能最好,故本文 δ取值0.10。

(4) 实验结果分析

①BNTT模型和向量空间话题模型性能比较

实验在不同阈值下的标注结果与TDT4数据集中标注结果对比,得到BNTT模型和向量空间话题模型的漏报率、误报率,绘制DET曲线如图4所示。

图4

图4   BNTT模型和向量空间话题模型性能对比

Fig.4   Performance of BNTT and VSM


每个话题由4篇样本报道描述,样本报道中术语构成话题的核心,话题核心比单篇报道的内容能更准确地描述话题。BNTT模型在计算新报道和话题相似度时主要由话题中术语权重确定,更注重话题核心的影响。由图4可知,BNTT模型DET曲线在向量空间话题模型DET曲线下方,同一阈值下BNTT模型的漏报率和误报率较小,BNTT模型追踪性能更好。

②E_BNTT模型和BNTT模型性能比较

计算E_BNTT模型和BNTT模型的 optimal((Cdet)norm)值,统计结果如表3所示。

表3   BNTT模型和E_BNTT模型性能对比

Table 3  Performance of BNTT and E_BNTT

性能

模型
BNTTE_BNTT
Pmiss0.093 460.065 42
Pfa0.012 810.015 58
optimal((Cdet)norm)0.156 210.139 22

新窗口打开| 下载CSV


表3可知,E_BNTT模型比BNTT模型 optimal((Cdet)norm)值降低了约0.017,添加事件节点后模型能较好地把握话题各方面的内容,追踪效果更好。每个事件是话题的一个子类,事件间的相同部分是话题的核心部分,噪声往往在事件间的不同部分。添加事件节点后在计算报道和话题的相似度时,核心部分会被加强,噪声部分会被削弱。实验结果显示E_BNTT模型较BNTT模型性能提高较少,主要因为话题是随着时间推移逐渐演化的,话题演化会产生新事件。本文提出的E_BNTT模型中事件是由发布最早的4篇样本报道确定,并未动态更新,但将话题划分成不同事件可为日后研究事件的动态变化奠定基础。

5 结 语

本文将贝叶斯网络用于话题识别与追踪,给出BNTT模型、E_BNTT模型拓扑结构和概率计算公式,并通过实验验证了两个模型的性能。实验结果表明,与向量空间话题模型相比,BNTT模型计算报道和话题相似度时更注重话题核心的影响,追踪性能更好;E_BNTT模型通过添加一层事件节点挖掘报道、事件和话题间的关系,较BNTT模型,进一步提高了追踪性能。本文提出的话题追踪模型属于静态模型,在话题追踪过程中两个模型的话题核心保持不变,适用于对准确率要求高的领域,但随着时间推移,话题演化会产生新事件,新模型未做更新,漏报率会相应提高。在未来工作中,将考虑构建自适应的追踪模型,以更好地模拟话题的演化;利用贝叶斯网络检索模型易于扩展的特性,挖掘语义关系和话题间关系,更准确全面描述话题,提高话题追踪性能。

作者贡献声明:

徐建民:提出论文选题与研究思路,设计研究方案,修改论文;

张丽青:研究方案实施,论文撰写,数据分析,实验设计与结果分析;

王苗:实验设计与结果分析,论文修改。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail: 1031015476@qq.com。

[1] 张丽青. TDT4语料库.rar. 购买的官方实验数据集.

参考文献

洪宇, 仓玉, 姚建民 , .

话题跟踪中静态和动态话题模型的核捕捉衰减

[J]. 软件学报, 2012,23(5):1100-1119.

[本文引用: 2]

( Hong Yu, Cang Yu, Yao Jianmin , et al.

Descending Kernel Track of Static and Dynamic Topic Models in Topic Tracking

[J]. Journal of Software, 2012,23(5):1100-1119.)

[本文引用: 2]

Allan J, Papka R, Lavrenko V .

On-Line New Event Detection and Tracking

[C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 37-75.

[本文引用: 1]

屈庆涛, 刘其成, 牟春晓 .

基于N-Gram语言模型的并行自适应新闻话题追踪算法

[J]. 山东大学学报:工学版, 2018,48(6):37-43.

[本文引用: 1]

( Qu Qingtao, Liu Qicheng, Mu Chunxiao .

A Parallel Adaptive News Topic Tracking Algorithm Based on N-Gram Language Model

[J]. Journal of Shandong University: Engineering Science, 2018,48(6):37-43.)

[本文引用: 1]

王亚民, 胡悦 .

基于BTM的微博舆情热点发现

[J]. 情报杂志, 2016,35(11):119-124, 140.

[本文引用: 1]

( Wang Yamin, Hu Yue .

Hotspot Detection in Microblog Public Opinion Based on Biterm Topic Model

[J]. Journal of Intelligence, 2016,35(11):119-124, 140.)

[本文引用: 1]

宋莉娜, 冯旭鹏, 刘利军 , .

基于SOM聚类的微博话题发现

[J]. 计算机应用研究, 2018,35(3):671-674, 679.

[本文引用: 1]

( Song Lina, Feng Xupeng, Liu Lijun , et al.

Microblog Topics Detection Based on SOM Clustering

[J]. Application Research of Computers, 2018,35(3):671-674, 679.)

[本文引用: 1]

Xu J M, Wu S F, Hong Y .

Topic Tracking with Bayesian Belief Network

[J]. Optik, 2014,125(9):2164-2169.

[本文引用: 4]

De Campos L M, Fernández-Luna J M, Huete J F .

The BNR Model: Foundations and Performance of a Bayesian Network-Based Retrieval Model

[J]. International Journal of Approximate Reasoning, 2003,34(2-3):265-285.

[本文引用: 6]

Doddington G, Fiscus J . The 2002 Topic Detection and Tracking (TDT2002) Task Definition and Evaluation Plan[R]. 2002.

[本文引用: 1]

郑伟, 侯宏旭, 武静 .

贝叶斯网络在信息检索中的应用

[J]. 情报科学, 2018,36(6):136-141.

[本文引用: 2]

( Zheng Wei, Hou Hongxu, Wu Jing .

Application of Bayesian Network for Information Retrieval

[J]. Information Science, 2018,36(6):136-141.)

[本文引用: 2]

Turtle H R, Croft W B .

Inference Networks for Document Retrieval

[C]// Proceedings of the 13th SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1989: 1-24.

[本文引用: 1]

Ribeiro-Neto B A N, Muntz R .

A Belief Network Model for IR

[C]// Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1996: 253-260.

[本文引用: 1]

Acid S, De Campos L M, Fernández-Luna J M , et al.

An Information Retrieval Model Based on Simple Bayesian Networks

[J]. International Journal of Intelligent Systems, 2003,18(2):251-265.

[本文引用: 1]

周楠, 杜攀, 靳小龙 , .

面向舆情事件的子话题标签生成模型ET-TAG

[J]. 计算机学报, 2018,41(7):1490-1503.

[本文引用: 1]

( Zhou Nan, Du Pan, Jin Xiaolong , et al.

ET-TAG: A Tag Generation Model for the Sub-Topic of Public Opinion Events

[J]. Chinese Journal of Computers, 2018,41(7):1490-1503.)

[本文引用: 1]

郑伟, 张宇, 邹博伟 , .

基于相关性模型的中文话题跟踪研究

[C]// 第九届全国计算语言学学术会议论文集. 中国中文信息学会, 2007: 558-563.

[本文引用: 2]

( Zheng Wei, Zhang Yu, Zou Bowei , et al.

Research of Chinese Topic Tracking Based on Relevance Model

[C]// Proceedings of the 9th China National Conference on Computational Linguistics. Chinese Information Processing Society of China, 2007: 558-563.)

[本文引用: 2]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn