Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 200-206    DOI: 10.11925/infotech.2096-3467.2019.0634
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于贝叶斯网络的静态话题追踪模型*
徐建民(),张丽青,王苗
河北大学网络空间安全与计算机学院 保定 071002
Tracking Static Topics with Bayesian Network
Xu Jianmin(),Zhang Liqing,Wang Miao
School of Cyber Security and Computer, Hebei University, Baoding 071002, China
全文: PDF(710 KB)   HTML ( 0
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 通过分析贝叶斯网络在话题追踪中的可行性,提出一种话题追踪新方法,以提高追踪性能和追踪效率。【方法】 将贝叶斯网络相关知识应用到话题追踪,分别构建贝叶斯网络话题追踪模型和扩展贝叶斯网络话题追踪模型。模型中节点表示术语、事件和话题,弧表示节点间关系,话题、事件和报道间的相似度利用推理加估计的方法得到。【结果】 在TDT4数据集上的实验结果表明,与向量空间话题模型相比,贝叶斯网络话题追踪模型的DET曲线在下方,追踪性能明显提高;扩展贝叶斯网络话题追踪模型较贝叶斯网络话题追踪模型,追踪性能提高1.7%。【局限】 扩展贝叶斯网络话题追踪模型是一种静态话题模型,但事件是随话题演化产生的,故扩展贝叶斯网络话题追踪模型性能的提升并不显著。【结论】 新模型能准确描述话题、事件和报道间的结构关系,概率推导效率高,可有效提升话题追踪的性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐建民
张丽青
王苗
关键词 贝叶斯网络话题追踪事件静态话题模型    
Abstract

[Objective] The paper analyzed the feasibility of using Bayesian network for topic tracking, and proposed a new method to improve its performance.[Methods] We constructed two topic tracking models, one with Bayesian Network, and the other with Extended Bayesian Network. The nodes in the models represent terms, events and topics, while the arcs represent relationships among nodes. Finally, we calculated the similarity among topics, events and reports with the Propagation and Evaluation method.[Results] We examined our models on TDT4 data set and found the DET curve of the Bayesian Network model was below the curve of vector space topic model, the former had better performance. The result of extended Bayesian network topic tracking model was 1.7% higher than the first one.[Limitations] Extended Bayesian network topic tracking model was a static topic model while events were generated by the evolution of topics, so the model had limited performance improvement.[Conclusions] The new models can describe the structural relationships among topics, events and stories, and conduct probability inference, which improve the performance of topic tracking effectively.

Key wordsBayesian Network    Topic Tracking    Event    Static Topic Model
收稿日期: 2019-06-10     
中图分类号:  TP391.1  
基金资助:*本文系河北省社会科学基金项目“京津冀协同发展网络热点话题发现及其应用研究”的研究成果之一(HB15SH064)
通讯作者: 徐建民     E-mail: hbuxjm@hbu.edu.cn
引用本文:   
徐建民,张丽青,王苗. 基于贝叶斯网络的静态话题追踪模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 200-206.
Xu Jianmin,Zhang Liqing,Wang Miao. Tracking Static Topics with Bayesian Network. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0634.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0634
图1  贝叶斯网络
图2  BNTT模型
图3  E_BNTT模型
真实为“是” 真实为“否”
模型判断为“是” a b
模型判断为“否” c d
表1  参数说明
δ Pmiss Pfa optimal((Cdet)norm)
0.05 0.093 46 0.012 81 0.156 21
0.10 0.074 77 0.013 15 0.139 22
0.15 0.065 42 0.015 58 0.141 74
0.20 0.062 31 0.018 00 0.150 50
0.25 0.096 57 0.015 58 0.172 90
0.30 0.093 46 0.016 61 0.174 87
0.35 0.115 26 0.020 08 0.213 64
表2  参数δ不同取值下E_BNTT模型性能
图4  BNTT模型和向量空间话题模型性能对比
性能

模型
BNTT E_BNTT
Pmiss 0.093 46 0.065 42
Pfa 0.012 81 0.015 58
optimal((Cdet)norm) 0.156 21 0.139 22
表3  BNTT模型和E_BNTT模型性能对比
[1] 洪宇, 仓玉, 姚建民 , 等. 话题跟踪中静态和动态话题模型的核捕捉衰减[J]. 软件学报, 2012,23(5):1100-1119.
( Hong Yu, Cang Yu, Yao Jianmin , et al. Descending Kernel Track of Static and Dynamic Topic Models in Topic Tracking[J]. Journal of Software, 2012,23(5):1100-1119.)
[2] Allan J, Papka R, Lavrenko V . On-Line New Event Detection and Tracking [C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 37-75.
[3] 屈庆涛, 刘其成, 牟春晓 . 基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 山东大学学报:工学版, 2018,48(6):37-43.
( Qu Qingtao, Liu Qicheng, Mu Chunxiao . A Parallel Adaptive News Topic Tracking Algorithm Based on N-Gram Language Model[J]. Journal of Shandong University: Engineering Science, 2018,48(6):37-43.)
[4] 王亚民, 胡悦 . 基于BTM的微博舆情热点发现[J]. 情报杂志, 2016,35(11):119-124, 140.
( Wang Yamin, Hu Yue . Hotspot Detection in Microblog Public Opinion Based on Biterm Topic Model[J]. Journal of Intelligence, 2016,35(11):119-124, 140.)
[5] 宋莉娜, 冯旭鹏, 刘利军 , 等. 基于SOM聚类的微博话题发现[J]. 计算机应用研究, 2018,35(3):671-674, 679.
( Song Lina, Feng Xupeng, Liu Lijun , et al. Microblog Topics Detection Based on SOM Clustering[J]. Application Research of Computers, 2018,35(3):671-674, 679.)
[6] Xu J M, Wu S F, Hong Y . Topic Tracking with Bayesian Belief Network[J]. Optik, 2014,125(9):2164-2169.
[7] De Campos L M, Fernández-Luna J M, Huete J F . The BNR Model: Foundations and Performance of a Bayesian Network-Based Retrieval Model[J]. International Journal of Approximate Reasoning, 2003,34(2-3):265-285.
[8] Doddington G, Fiscus J . The 2002 Topic Detection and Tracking (TDT2002) Task Definition and Evaluation Plan[R]. 2002.
[9] 郑伟, 侯宏旭, 武静 . 贝叶斯网络在信息检索中的应用[J]. 情报科学, 2018,36(6):136-141.
( Zheng Wei, Hou Hongxu, Wu Jing . Application of Bayesian Network for Information Retrieval[J]. Information Science, 2018,36(6):136-141.)
[10] Turtle H R, Croft W B . Inference Networks for Document Retrieval [C]// Proceedings of the 13th SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1989: 1-24.
[11] Ribeiro-Neto B A N, Muntz R . A Belief Network Model for IR [C]// Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1996: 253-260.
[12] Acid S, De Campos L M, Fernández-Luna J M , et al. An Information Retrieval Model Based on Simple Bayesian Networks[J]. International Journal of Intelligent Systems, 2003,18(2):251-265.
[13] 周楠, 杜攀, 靳小龙 , 等. 面向舆情事件的子话题标签生成模型ET-TAG[J]. 计算机学报, 2018,41(7):1490-1503.
( Zhou Nan, Du Pan, Jin Xiaolong , et al. ET-TAG: A Tag Generation Model for the Sub-Topic of Public Opinion Events[J]. Chinese Journal of Computers, 2018,41(7):1490-1503.)
[14] 郑伟, 张宇, 邹博伟 , 等. 基于相关性模型的中文话题跟踪研究[C]// 第九届全国计算语言学学术会议论文集. 中国中文信息学会, 2007: 558-563.
( Zheng Wei, Zhang Yu, Zou Bowei , et al. Research of Chinese Topic Tracking Based on Relevance Model[C]// Proceedings of the 9th China National Conference on Computational Linguistics. Chinese Information Processing Society of China, 2007: 558-563.)
[1] 邓建高,张璇,傅柱,韦庆明. 基于系统动力学的突发事件网络舆情传播研究:以“江苏响水爆炸事故”为例*[J]. 数据分析与知识发现, 2020, 4(2/3): 110-121.
[2] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[3] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[4] 强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 *[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[5] 安璐,梁艳平. 突发公共卫生事件微博话题与用户行为选择研究*[J]. 数据分析与知识发现, 2019, 3(4): 33-41.
[6] 王林,王可,吴江. 社交媒体中突发公共卫生事件舆情传播与演变*——以2018年疫苗事件为例[J]. 数据分析与知识发现, 2019, 3(4): 42-52.
[7] 胡哲,查先进,严亚兰. 突发事件情境下在线健康社区用户交互行为研究 *[J]. 数据分析与知识发现, 2019, 3(12): 10-20.
[8] 李纲,陈思菁,毛进,谷岩松. 自然灾害事件微博热点话题的时空对比分析 *[J]. 数据分析与知识发现, 2019, 3(11): 1-15.
[9] 王玲,代前进,吴晓隽. 基于预警平台大数据的事件旅游客流时空分布研究*[J]. 数据分析与知识发现, 2018, 2(8): 31-40.
[10] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[11] 王佳琪,张均胜,乔晓东. 基于文献的科研事件表示与语义链接研究*[J]. 数据分析与知识发现, 2018, 2(5): 32-39.
[12] 岑咏华,张灿,吴承尧. 媒介信息与投资者过度交易*——基于微博舆论、行业新闻与公司公告的实证[J]. 数据分析与知识发现, 2018, 2(4): 20-28.
[13] 高永兵,杨贵朋,张娣,马占飞. 基于突显词博文聚类的官微事件检测方法*[J]. 数据分析与知识发现, 2017, 1(9): 57-64.
[14] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[15] 尹玢璨,辛世超,张晗,赵玉虹. 基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型*——以非小细胞肺癌为例[J]. 数据分析与知识发现, 2017, 1(2): 41-46.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn