Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 200-206     https://doi.org/10.11925/infotech.2096-3467.2019.0634
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于贝叶斯网络的静态话题追踪模型*
徐建民(),张丽青,王苗
河北大学网络空间安全与计算机学院 保定 071002
Tracking Static Topics with Bayesian Network
Xu Jianmin(),Zhang Liqing,Wang Miao
School of Cyber Security and Computer, Hebei University, Baoding 071002, China
全文: PDF (710 KB)   HTML ( 1
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 通过分析贝叶斯网络在话题追踪中的可行性,提出一种话题追踪新方法,以提高追踪性能和追踪效率。【方法】 将贝叶斯网络相关知识应用到话题追踪,分别构建贝叶斯网络话题追踪模型和扩展贝叶斯网络话题追踪模型。模型中节点表示术语、事件和话题,弧表示节点间关系,话题、事件和报道间的相似度利用推理加估计的方法得到。【结果】 在TDT4数据集上的实验结果表明,与向量空间话题模型相比,贝叶斯网络话题追踪模型的DET曲线在下方,追踪性能明显提高;扩展贝叶斯网络话题追踪模型较贝叶斯网络话题追踪模型,追踪性能提高1.7%。【局限】 扩展贝叶斯网络话题追踪模型是一种静态话题模型,但事件是随话题演化产生的,故扩展贝叶斯网络话题追踪模型性能的提升并不显著。【结论】 新模型能准确描述话题、事件和报道间的结构关系,概率推导效率高,可有效提升话题追踪的性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐建民
张丽青
王苗
关键词 贝叶斯网络话题追踪事件静态话题模型    
Abstract

[Objective] The paper analyzed the feasibility of using Bayesian network for topic tracking, and proposed a new method to improve its performance.[Methods] We constructed two topic tracking models, one with Bayesian Network, and the other with Extended Bayesian Network. The nodes in the models represent terms, events and topics, while the arcs represent relationships among nodes. Finally, we calculated the similarity among topics, events and reports with the Propagation and Evaluation method.[Results] We examined our models on TDT4 data set and found the DET curve of the Bayesian Network model was below the curve of vector space topic model, the former had better performance. The result of extended Bayesian network topic tracking model was 1.7% higher than the first one.[Limitations] Extended Bayesian network topic tracking model was a static topic model while events were generated by the evolution of topics, so the model had limited performance improvement.[Conclusions] The new models can describe the structural relationships among topics, events and stories, and conduct probability inference, which improve the performance of topic tracking effectively.

Key wordsBayesian Network    Topic Tracking    Event    Static Topic Model
收稿日期: 2019-06-10      出版日期: 2020-04-26
ZTFLH:  TP391.1  
基金资助:*本文系河北省社会科学基金项目“京津冀协同发展网络热点话题发现及其应用研究”的研究成果之一(HB15SH064)
通讯作者: 徐建民     E-mail: hbuxjm@hbu.edu.cn
引用本文:   
徐建民,张丽青,王苗. 基于贝叶斯网络的静态话题追踪模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 200-206.
Xu Jianmin,Zhang Liqing,Wang Miao. Tracking Static Topics with Bayesian Network. Data Analysis and Knowledge Discovery, 2020, 4(2/3): 200-206.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0634      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I2/3/200
Fig.1  贝叶斯网络
Fig.2  BNTT模型
Fig.3  E_BNTT模型
真实为“是” 真实为“否”
模型判断为“是” a b
模型判断为“否” c d
Table 1  参数说明
δ Pmiss Pfa optimal((Cdet)norm)
0.05 0.093 46 0.012 81 0.156 21
0.10 0.074 77 0.013 15 0.139 22
0.15 0.065 42 0.015 58 0.141 74
0.20 0.062 31 0.018 00 0.150 50
0.25 0.096 57 0.015 58 0.172 90
0.30 0.093 46 0.016 61 0.174 87
0.35 0.115 26 0.020 08 0.213 64
Table 2  参数δ不同取值下E_BNTT模型性能
Fig.4  BNTT模型和向量空间话题模型性能对比
性能

模型
BNTT E_BNTT
Pmiss 0.093 46 0.065 42
Pfa 0.012 81 0.015 58
optimal((Cdet)norm) 0.156 21 0.139 22
Table 3  BNTT模型和E_BNTT模型性能对比
[1] 洪宇, 仓玉, 姚建民 , 等. 话题跟踪中静态和动态话题模型的核捕捉衰减[J]. 软件学报, 2012,23(5):1100-1119.
[1] ( Hong Yu, Cang Yu, Yao Jianmin , et al. Descending Kernel Track of Static and Dynamic Topic Models in Topic Tracking[J]. Journal of Software, 2012,23(5):1100-1119.)
[2] Allan J, Papka R, Lavrenko V . On-Line New Event Detection and Tracking [C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 37-75.
[3] 屈庆涛, 刘其成, 牟春晓 . 基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 山东大学学报:工学版, 2018,48(6):37-43.
[3] ( Qu Qingtao, Liu Qicheng, Mu Chunxiao . A Parallel Adaptive News Topic Tracking Algorithm Based on N-Gram Language Model[J]. Journal of Shandong University: Engineering Science, 2018,48(6):37-43.)
[4] 王亚民, 胡悦 . 基于BTM的微博舆情热点发现[J]. 情报杂志, 2016,35(11):119-124, 140.
[4] ( Wang Yamin, Hu Yue . Hotspot Detection in Microblog Public Opinion Based on Biterm Topic Model[J]. Journal of Intelligence, 2016,35(11):119-124, 140.)
[5] 宋莉娜, 冯旭鹏, 刘利军 , 等. 基于SOM聚类的微博话题发现[J]. 计算机应用研究, 2018,35(3):671-674, 679.
[5] ( Song Lina, Feng Xupeng, Liu Lijun , et al. Microblog Topics Detection Based on SOM Clustering[J]. Application Research of Computers, 2018,35(3):671-674, 679.)
[6] Xu J M, Wu S F, Hong Y . Topic Tracking with Bayesian Belief Network[J]. Optik, 2014,125(9):2164-2169.
[7] De Campos L M, Fernández-Luna J M, Huete J F . The BNR Model: Foundations and Performance of a Bayesian Network-Based Retrieval Model[J]. International Journal of Approximate Reasoning, 2003,34(2-3):265-285.
[8] Doddington G, Fiscus J . The 2002 Topic Detection and Tracking (TDT2002) Task Definition and Evaluation Plan[R]. 2002.
[9] 郑伟, 侯宏旭, 武静 . 贝叶斯网络在信息检索中的应用[J]. 情报科学, 2018,36(6):136-141.
[9] ( Zheng Wei, Hou Hongxu, Wu Jing . Application of Bayesian Network for Information Retrieval[J]. Information Science, 2018,36(6):136-141.)
[10] Turtle H R, Croft W B . Inference Networks for Document Retrieval [C]// Proceedings of the 13th SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1989: 1-24.
[11] Ribeiro-Neto B A N, Muntz R . A Belief Network Model for IR [C]// Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1996: 253-260.
[12] Acid S, De Campos L M, Fernández-Luna J M , et al. An Information Retrieval Model Based on Simple Bayesian Networks[J]. International Journal of Intelligent Systems, 2003,18(2):251-265.
[13] 周楠, 杜攀, 靳小龙 , 等. 面向舆情事件的子话题标签生成模型ET-TAG[J]. 计算机学报, 2018,41(7):1490-1503.
[13] ( Zhou Nan, Du Pan, Jin Xiaolong , et al. ET-TAG: A Tag Generation Model for the Sub-Topic of Public Opinion Events[J]. Chinese Journal of Computers, 2018,41(7):1490-1503.)
[14] 郑伟, 张宇, 邹博伟 , 等. 基于相关性模型的中文话题跟踪研究[C]// 第九届全国计算语言学学术会议论文集. 中国中文信息学会, 2007: 558-563.
[14] ( Zheng Wei, Zhang Yu, Zou Bowei , et al. Research of Chinese Topic Tracking Based on Relevance Model[C]// Proceedings of the 9th China National Conference on Computational Linguistics. Chinese Information Processing Society of China, 2007: 558-563.)
[1] 陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[2] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[3] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[4] 赵天资, 段亮, 岳昆, 乔少杰, 马子娟. 基于Biterm主题模型的新闻线索生成方法 *[J]. 数据分析与知识发现, 2021, 5(2): 1-13.
[5] 程铁军, 王曼, 黄宝凤, 冯兰萍. 基于CEEMDAN-BP模型的突发事件网络舆情预测研究*[J]. 数据分析与知识发现, 2021, 5(11): 59-67.
[6] 吴胜男, 蒲虹君, 田若楠, 梁雯琪, 于琦. 网络结构对链路预测算法的影响研究*——基于元分析视角[J]. 数据分析与知识发现, 2021, 5(11): 102-113.
[7] 韩普, 张伟, 张展鹏, 王宇欣, 方浩宇. 基于特征融合和多通道的突发公共卫生事件微博情感分析*[J]. 数据分析与知识发现, 2021, 5(11): 68-79.
[8] 尹浩然,曹金璇,曹鲁喆,王国栋. 扩充语义维度的BiGRU-AM突发事件要素识别研究*[J]. 数据分析与知识发现, 2020, 4(9): 91-99.
[9] 聂磊,傅娟,易成岐,杨道玲. 基于移动终端位置数据的企业线下复工水平测算方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 38-49.
[10] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[11] 邓建高,张璇,傅柱,韦庆明. 基于系统动力学的突发事件网络舆情传播研究:以“江苏响水爆炸事故”为例*[J]. 数据分析与知识发现, 2020, 4(2/3): 110-121.
[12] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[13] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[14] 张翼鹏,马敬东. 突发公共卫生事件误导信息受众情感分析及传播特征研究*[J]. 数据分析与知识发现, 2020, 4(12): 45-54.
[15] 孙鑫瑞,孟雨,王文乐. 基于知识图谱与目标检测的微博交通事件识别*[J]. 数据分析与知识发现, 2020, 4(12): 136-147.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn