Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (7/8): 104-109     https://doi.org/10.11925/infotech.1003-3513.2011.07-08.17
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于种子文档LDA话题的演化研究
单斌, 李芳
上海交通大学计算机科学与工程系 上海 200240
Topic Evolution Based on Seminal Document and Topic Model
Shan Bin, Li Fang
School of Electronic Information and Electrical Engineering, Shanghai Jiaotong University, Shanghai 200240, China
全文: PDF (797 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 提出一种基于种子文档的LDA话题演化方法。首先选取种子文档,利用种子文档指导后一时间段文档的建模,然后根据种子文档的语义分布信息对连续时间上的LDA话题进行关联,保证话题的同一性。实验结果证明,在NIPS论文语料集和全国两会新闻报道集中,该方法可以推导特定话题的演化结果,避免关联话题之间存在的演化结果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
单斌
李芳
关键词 LDA话题演化种子文档话题模型    
Abstract:This paper presents a new method to infer the LDA topic evolution automatically based on seminal documents. The semantic distribution of the seminal documents is used to guide the successive model and link topics between consecutive time slices. The experiments are based on NIPS dataset and Chinese newswire of NPC and CPPCC,and the results show that the method can not only get the correct evolutions in various forms, but also avoid those related topics without evolution relationship.
Key wordsLDA    Topic evolution    Seminal document    Topic model
收稿日期: 2011-05-11      出版日期: 2011-10-09
: 

TP393

 
基金资助:

本文系国家自然科学基金项目“新闻话题线索与主题的探测研究” (项目编号:60873134)的研究成果之一。

引用本文:   
单斌, 李芳. 基于种子文档LDA话题的演化研究[J]. 现代图书情报技术, 2011, 27(7/8): 104-109.
Shan Bin, Li Fang. Topic Evolution Based on Seminal Document and Topic Model. New Technology of Library and Information Service, 2011, 27(7/8): 104-109.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.07-08.17      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I7/8/104
[1] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research,2003(3):993-1022.

[2] Wang X, McCallum A. Topic over Time: A Non-markov Continuous-time Model of Topical Trends . In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia,PA,USA.2006:424-433.

[3] Rosen-Zvi M,Griffiths T,Steyvers M,et al. The Author-topic Model for Authors and Documents . In: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence,Banff,Canada.2004:487-494.

[4] Blei D M,McAuliffe J D. Supervised Topic Models . In: Proceeding of the 22nd Annual Conference on Neural Information Processing Systems.2008.

[5] Blei D M, LaffertyJ D. Dynamic Topic Model .In: Proceedings of the 23rd International Conference on Machine Learning,Pittsburgh,Pennsylvania.2006:113-120.

[6] Wei X,Sun J,Wang X. Dynamic Mixture Models for Multiple Time Series .In: Proceedings of the 20th International Joint Conference on Artificial Intelligence.2007: 2909-2914.

[7] 单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报, 2010,24(6):43-49,68.

[8] Makkonen J. Investigations on Event Evolution in TDT . In: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.2003:43-48.

[9] 楚克明,李芳.基于LDA 话题关联的话题演化[J]. 上海交通大学学报, 2010,44(11):1501-1506.

[10] Nallapati R M,Ahmed A,Xing E P,et al. Joint Latent Topic Models for Text and Citations . In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2008:542-550.

[11] Alsumait L,Barbará D,Gentle J,et al. Topic Significance Ranking of LDA Generative Models . In: Proceeding of the European Conference on Machine Learning and Knowledge Discovery in Databases: Part I.2009:67-82.

[12] GriffithsT L,Steyvers M. Finding Scientific Topics .In: Proceeding of the National Academy of Science of United States of America.2004,101:5228-5235.
[1] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[2] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[3] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[4] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[5] 叶光辉,曾杰妍,胡婧岚,毕崇武. 城市画像视角下的社会公众情感演化研究*[J]. 数据分析与知识发现, 2020, 4(4): 15-26.
[6] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[7] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[8] 徐建民,张丽青,王苗. 基于贝叶斯网络的静态话题追踪模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 200-206.
[9] 黄微,赵江元,闫璐. 网络热点事件话题漂移指数构建与实证研究*[J]. 数据分析与知识发现, 2020, 4(11): 92-101.
[10] 叶光辉,徐彤,毕崇武,李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析*[J]. 数据分析与知识发现, 2020, 4(11): 121-130.
[11] 王晰巍,张柳,黄博,韦雅楠. 基于LDA的微博用户主题图谱构建及实证研究*——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10): 47-57.
[12] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[13] 孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
[14] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[15] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn