Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (10): 54-64    DOI: 10.11925/infotech.2096-3467.2018.0196
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于动态主题模型的时间窗口划分研究*
王婷婷(),王宇,秦琳杰
华侨大学统计学院 厦门 361021
Dividing Time Windows of Dynamic Topic Model
Tingting Wang(),Yu Wang,Linjie Qin
Institute of Statistics, Huaqiao University, Xiamen 361021, China
全文: PDF(861 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】为解决动态主题模型时间窗口的自主划分问题, 提出基于动态自适应时间窗口划分的DIM模型。【方法】通过传统的LDA主题模型和词向量模型对文本语料进行量化; 构建反映时间窗口间差异性和时间窗口内相似性的综合指标; 基于该指标构建自适应时间窗口划分的DIM模型, 并针对“一带一路”国际合作高峰论 坛的新闻语料进行实证研究。【结果】基于动态自适应时间窗口划分的DIM模型能够迅速、有效地划分时间窗口, 不但保证了不同窗口下主题间的可比性, 还能够对文档的影响因素进行评价。【局限】时间窗相似度综合指标基于传统LDA模型构造, 也可采用LDA族类的其他模型进行改进。【结论】新模型具有自适应划分时序文本的能力, 是对传 统动态主题模型的一种有效改进。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王婷婷
王宇
秦琳杰
关键词 动态主题模型自适应时间窗口DIM影响因素文本扩充    
Abstract

[Objective] This paper proposes a Document Influence Model (DIM) based on Dynamic Automatic Time, aiming to solve the time window dividing issue of dynamic topic model. [Methods] Firstly, we processed the text corpora with the traditional LDA model and word vector model. Secondly, we constructed a comprehensive index reflecting the differences between time windows and similarity within the time windows. Finally, we built a new model based on this index and conducted an empirical study with news corpus of the “Belt and Road” International Cooperation Summit Forum. [Results] The proposed model could quickly and effectively divide the time windows, which not only ensured the comparability of the topics under different windows, but also evaluated the influence factors of the document. [Limitations] We built the similarity index of time windows based on the traditional LDA model, which could be improved by the latest LDA models. [Conclusions] The new model is able to divide the time series text effectively, which improves the performance of traditional dynamic topic model.

Key wordsDynamic Topic Model    Adaptive Time Window    DIM    Influence Factor    Text Expansion
收稿日期: 2018-02-26     
基金资助:*本文系国家社会科学基金项目“基于LDA模型的‘海上丝绸之路’文本挖掘研究”(项目编号: 15CTJ005)的研究成果之一
引用本文:   
王婷婷,王宇,秦琳杰. 基于动态主题模型的时间窗口划分研究*[J]. 数据分析与知识发现, 2018, 2(10): 54-64.
Tingting Wang,Yu Wang,Linjie Qin. Dividing Time Windows of Dynamic Topic Model. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.0196.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0196
图1  DTM逻辑图
图2  传统DIM逻辑图
图3  新闻数量的时间序列分布及其比重
图4  动态窗口划分模型训练流程
时间窗 起点 终点 窗宽(天)
W1 20170501 20170504 4
W2 20170505 20170510 6
W3 20170511 20170513 3
W4 20170514 20170518 5
W5 20170519 20170521 3
W6 20170522 20170526 5
W7 20170527 20170529 3
W8 20170530 20170531 2
表1  动态自适应时间窗口的划分结果
窗口1 窗口2 窗口3 窗口4 窗口5 窗口6 窗口7 窗口8
0.014375 0.013796 0.013370 0.013121 0.013108 0.013085 0.013082 0.013082
标准 标准 标准 标准 标准 标准 标准 标准
0.011270 0.010923 0.010568 0.010367 0.010319 0.010305 0.010302 0.010301
干部 干部 干部 干部 干部 干部 干部 干部
0.009949 0.010109 0.010192 0.010103 0.010157 0.010244 0.010243 0.010241
品牌 品牌 品牌 品牌 品牌 品牌 品牌 品牌
0.009479 0.009340 0.009450 0.009564 0.009525 0.009510 0.009509 0.009508
登记 登记 调研 调研 调研 调研 调研 调研
0.009218 0.009263 0.009345 0.009278 0.009238 0.009226 0.009224 0.009224
调研 调研 登记 登记 登记 登记 登记 登记
0.007985 0.007964 0.007949 0.007913 0.007885 0.007875 0.007874 0.007875
作出 作出 基地 基地 基地 基地 基地 基地
0.007970 0.007954 0.007924 0.007847 0.007818 0.007810 0.007808 0.007807
基地 基地 作出 作出 作出 作出 作出 作出
0.007167 0.007210 0.007278 0.007541 0.007516 0.007507 0.007506 0.007506
民生 民生 捷克 捷克 捷克 捷克 捷克 捷克
0.007104 0.007181 0.007260 0.007346 0.007395 0.007387 0.007386 0.007385
海洋 海洋 民生 海洋 海洋 海洋 海洋 海洋
0.007013 0.007088 0.007230 0.007233 0.007245 0.007237 0.007236 0.007236
捷克 捷克 海洋 民生 民生 民生 民生 民生
0.006624 0.006520 0.006483 0.006467 0.006448 0.006442 0.006441 0.006440
国家队 以来 以来 以来 以来 以来 以来 以来
0.006522 0.006492 0.006456 0.006409 0.006389 0.006383 0.006383 0.006382
以来 国家队 国家队 国家队 国家队 国家队 国家队 国家队
表2  Topic0的Topic-Word结果
窗口1 窗口2 窗口3 窗口4 窗口5 窗口6 窗口7 窗口8
0.015714 0.015778 0.015831 0.015875 0.015909 0.015935 0.015952 0.015960
一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路
0.005635 0.005652 0.005667 0.005679 0.005689 0.005696 0.005701 0.005703
国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛
0.004295 0.004308 0.004318 0.004327 0.004334 0.004339 0.004342 0.004344
发展 发展 发展 发展 发展 发展 发展 发展
0.003924 0.003935 0.003945 0.003952 0.003958 0.003963 0.003966 0.003967
会见 会见 会见 会见 会见 会见 会见 会见
0.003551 0.003561 0.003569 0.003576 0.003582 0.003586 0.003588 0.003589
出席 出席 出席 出席 出席 出席 出席 出席
0.003338 0.003347 0.003354 0.003360 0.003365 0.003369 0.003371 0.003373
建设 建设 建设 建设 建设 建设 建设 建设
0.003236 0.003245 0.003252 0.003258 0.003263 0.003267 0.003269 0.003270
倡议 倡议 倡议 倡议 倡议 倡议 倡议 倡议
0.001424 0.001427 0.001429 0.001431 0.001433 0.001434 0.001434 0.001435
沿线国家 沿线国家 沿线国家 沿线国家 沿线国家 沿线国家 沿线国家 沿线国家
0.001375 0.001377 0.001380 0.001381 0.001383 0.001384 0.001385 0.001385
推进 推进 推进 推进 推进 推进 推进 推进
0.001148 0.001150 0.001152 0.001153 0.001154 0.001155 0.001156 0.001156
经济 经济 经济 经济 经济 经济 经济 经济
0.001113 0.001115 0.001116 0.001118 0.001119 0.001120 0.001120 0.001120
项目 项目 项目 项目 项目 项目 项目 项目
0.001057 0.001058 0.001060 0.001061 0.001062 0.001063 0.001063 0.001064
贸易 贸易 贸易 贸易 贸易 贸易 贸易 贸易
表3  Topic1的Topic-Word结果
窗口1 窗口2 窗口3 窗口4 窗口5 窗口6 窗口7 窗口8
0.006283 0.006303 0.006319 0.006332 0.006343 0.006350 0.006356 0.006358
一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路
0.003741 0.003751 0.003759 0.003766 0.003771 0.003775 0.003778 0.003779
建设 建设 建设 建设 建设 建设 建设 建设
0.003501 0.003510 0.003517 0.003524 0.003529 0.003532 0.003534 0.003536
全球 全球 全球 全球 全球 全球 全球 全球
0.003490 0.003499 0.003506 0.003513 0.003517 0.003521 0.003523 0.003524
发展 发展 发展 发展 发展 发展 发展 发展
0.003204 0.003213 0.003219 0.003225 0.003229 0.003232 0.003234 0.003235
文化 文化 文化 文化 文化 文化 文化 文化
0.002941 0.002948 0.002954 0.002959 0.002963 0.002966 0.002967 0.002968
企业 企业 企业 企业 企业 企业 企业 企业
0.002766 0.002773 0.002778 0.002783 0.002786 0.002789 0.002791 0.002791
合作 合作 合作 合作 合作 合作 合作 合作
0.002415 0.002420 0.002425 0.002429 0.002432 0.002434 0.002435 0.002436
旅游 旅游 旅游 旅游 旅游 旅游 旅游 旅游
0.002356 0.002362 0.002366 0.002370 0.002373 0.002375 0.002376 0.002377
经济 经济 经济 经济 经济 经济 经济 经济
0.002300 0.002305 0.002309 0.002313 0.002315 0.002317 0.002319 0.002319
青年 青年 青年 青年 青年 青年 青年 青年
0.001631 0.001634 0.001637 0.001639 0.00164 0.001642 0.001643 0.001643
投资 投资 投资 投资 投资 投资 投资 投资
0.001402 0.001404 0.001407 0.001408 0.001410 0.001411 0.001411 0.001412
共享 共享 共享 共享 共享 共享 共享 共享
表4  Topic4的Topic-Word结果
图5  “一带一路”主题的影响因素
图6  模型效果对比
[1] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[2] 廖君华, 孙克迎, 钟丽霞. 一种基于时序主题模型的网络热点话题演化分析系统[J]. 图书情报工作, 2013, 57(9): 96-102, 118.
doi: 10.7536/j.jssn.0252-3116.2013.09.016
(Liao Junhua, Sun Keying, Zhong Lixia.Study on a Hot Topic Analysis System Based on Time Sliced Topic Model[J]. Library and Information Service, 2003, 57(9): 96-102, 118.)
[3] Wang X R, McCallum A. Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2006: 424-433.
[4] Ding W, Chen C.Dynamic Topic Detection and Tracking: A Comparison of HDP, C-word, and Cocitation Methods[J]. Journal of the Association for Information Science & Technology, 2014, 65(10): 2084-2097.
doi: 10.1002/asi.23134
[5] Blei D M, Lafferty J D.Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.
[6] Derntl M, Günnemann N, Klamma R.A Dynamic Topic Model of Learning Analytics Research[C]// Proceedings of International Symposium on Instrumentation and Measurement, Sensor Network and Automation. IEEE, 2013: 436-439.
[7] Ha T, Beijnon B, Kim S, et al.Examining User Perceptions of Smartwatch Through Dynamic Topic Modeling[J]. Telematics and Informatics, 2017, 34(7): 1262-1273.
doi: 10.1016/j.tele.2017.05.011
[8] 曹丽娜, 唐锡晋. 基于主题模型的BBS话题演化趋势分析[J]. 管理科学学报, 2014, 17(11): 109-121.
(Cao Li’na, Tang Xijin.Trends of BBS Topic Based on Dynamic Topic Model[J]. Journal of Management Sciences in China, 2014, 17(11): 109-121.)
[9] 齐亚双, 祝娜, 翟羽佳. 基于DTM的国内外情报学研究主题热度演化对比研究[J]. 图书情报工作, 2016, 60(16): 99-109.
(Qi Yashuang,Zhu Na,Zhai Yujia.A Comparative Study on Topic Heats Evolution in the Field of Information Science Between the Domestic and Foreign Research Based on DTM[J]. Library and Information Service, 2016, 60(16): 99-109.)
[10] 蒋卓人, 陈燕, 高良才, 等. 一种结合有监督学习的动态主题模型[J]. 北京大学学报: 自然科学版, 2015, 51(2): 367-376.
doi: 10.13209/j.0479-8023.2015.035
(Jiang Zhuoren, Chen Yan, Gao Liangcai, et al.A Supervised Dynamic Topic Model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 367-376.)
[11] 李超雄, 黄发良, 温肖谦, 等. 基于动态主题情感混合模型的微博主题情感演化分析方法[J]. 计算机应用, 2015, 35(10): 2905-2910.
doi: 10.11772/j.issn.1001-9081.2015.10.2905
(Li Chaoxiong, Huang Faliang, Wen Xiaoqian, et al.Evolution Analysis Method of Microblog Topic-Sentiment Based on Dynamic Topic Sentiment Combining Model[J]. Journal of Computer Applications, 2015, 35(10): 2905-2910.)
[12] 李慧, 胡云凤. 基于动态情感主题模型的在线评论分析[J].数据分析与知识发现, 2017, 1(9): 74-82.
(Li Hui, Hu Yunfeng.Analyzing Online Reviews with Dynamic Sentiment Topic Model[J]. Data Analysis and Knowledge Discovery, 2017, 1(9): 74-82.)
[13] Gerrish S M, Blei D M.A Language-based Approach to Measuring Scholarly Impact[C]//Proceedings of International Conference on Machine Learning. DBLP, 2010: 375-382.
[1] 王玲,代前进,吴晓隽. 基于预警平台大数据的事件旅游客流时空分布研究*[J]. 数据分析与知识发现, 2018, 2(8): 31-40.
[2] 肖学斌,柴艳菊. 论文的相关参数与被引频次的关系研究[J]. 现代图书情报技术, 2016, 32(6): 46-53.
[3] 罗政,李玉纳. 企业价值链协同知识创新影响因素的系统动力学建模与仿真[J]. 现代图书情报技术, 2016, 32(5): 80-90.
[4] 廖海涵, 王曰芬. 社交媒体舆情信息传播效果影响因素研究*——以新浪微博“8.12天津爆炸”事件为例[J]. 数据分析与知识发现, 2016, 32(12): 85-93.
[5] 孟美任, 丁晟春. 在线中文商品评论可信度研究[J]. 现代图书情报技术, 2013, 29(9): 60-66.
[6] 周沛, 马静, 徐晓林. 企业移动电子税务采纳影响因素的实证研究[J]. 现代图书情报技术, 2012, 28(3): 59-66.
[7] 彭希羡, 冯祝斌, 孙霄凌, 朱庆华. 微博用户持续使用意向的理论模型及实证研究[J]. 现代图书情报技术, 2012, (11): 78-85.
[8] 万君, 张祥, 庞培培. 婚恋网站初始信任影响因素模型研究[J]. 现代图书情报技术, 2012, (10): 67-71.
[9] 苏金燕. 我国网络学术信息空间分布影响因素研究——基于空间计量的实证分析[J]. 现代图书情报技术, 2011, 27(5): 62-68.
[10] 甘利人,许应楠. 企业信息系统用户接受行为影响因素研究——以ERP系统为例[J]. 现代图书情报技术, 2009, 3(2): 71-77.
[11] 田辉,曹菲菲,李鹏翔. 竞争情报活动中人际网络应用的理论基础*[J]. 现代图书情报技术, 2007, 2(9): 1-5.
[12] 徐革,姚卫东,陈浩. 电子资源用户满意度影响因子的多元线性回归分析[J]. 现代图书情报技术, 2007, 2(10): 52-56.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn