Please wait a minute...
Data Analysis and Knowledge Discovery  2018, Vol. 2 Issue (10): 54-64    DOI: 10.11925/infotech.2096-3467.2018.0196
Current Issue | Archive | Adv Search |
Dividing Time Windows of Dynamic Topic Model
Wang Tingting(), Wang Yu, Qin Linjie
Institute of Statistics, Huaqiao University, Xiamen 361021, China
Download: PDF (861 KB)   HTML ( 5
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper proposes a Document Influence Model (DIM) based on Dynamic Automatic Time, aiming to solve the time window dividing issue of dynamic topic model. [Methods] Firstly, we processed the text corpora with the traditional LDA model and word vector model. Secondly, we constructed a comprehensive index reflecting the differences between time windows and similarity within the time windows. Finally, we built a new model based on this index and conducted an empirical study with news corpus of the “Belt and Road” International Cooperation Summit Forum. [Results] The proposed model could quickly and effectively divide the time windows, which not only ensured the comparability of the topics under different windows, but also evaluated the influence factors of the document. [Limitations] We built the similarity index of time windows based on the traditional LDA model, which could be improved by the latest LDA models. [Conclusions] The new model is able to divide the time series text effectively, which improves the performance of traditional dynamic topic model.

Key wordsDynamic Topic Model      Adaptive Time Window      DIM      Influence Factor      Text Expansion     
Received: 26 February 2018      Published: 12 November 2018
ZTFLH:  G35 C829.2  

Cite this article:

Wang Tingting,Wang Yu,Qin Linjie. Dividing Time Windows of Dynamic Topic Model. Data Analysis and Knowledge Discovery, 2018, 2(10): 54-64.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2018.0196     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2018/V2/I10/54

时间窗 起点 终点 窗宽(天)
W1 20170501 20170504 4
W2 20170505 20170510 6
W3 20170511 20170513 3
W4 20170514 20170518 5
W5 20170519 20170521 3
W6 20170522 20170526 5
W7 20170527 20170529 3
W8 20170530 20170531 2
窗口1 窗口2 窗口3 窗口4 窗口5 窗口6 窗口7 窗口8
0.014375 0.013796 0.013370 0.013121 0.013108 0.013085 0.013082 0.013082
标准 标准 标准 标准 标准 标准 标准 标准
0.011270 0.010923 0.010568 0.010367 0.010319 0.010305 0.010302 0.010301
干部 干部 干部 干部 干部 干部 干部 干部
0.009949 0.010109 0.010192 0.010103 0.010157 0.010244 0.010243 0.010241
品牌 品牌 品牌 品牌 品牌 品牌 品牌 品牌
0.009479 0.009340 0.009450 0.009564 0.009525 0.009510 0.009509 0.009508
登记 登记 调研 调研 调研 调研 调研 调研
0.009218 0.009263 0.009345 0.009278 0.009238 0.009226 0.009224 0.009224
调研 调研 登记 登记 登记 登记 登记 登记
0.007985 0.007964 0.007949 0.007913 0.007885 0.007875 0.007874 0.007875
作出 作出 基地 基地 基地 基地 基地 基地
0.007970 0.007954 0.007924 0.007847 0.007818 0.007810 0.007808 0.007807
基地 基地 作出 作出 作出 作出 作出 作出
0.007167 0.007210 0.007278 0.007541 0.007516 0.007507 0.007506 0.007506
民生 民生 捷克 捷克 捷克 捷克 捷克 捷克
0.007104 0.007181 0.007260 0.007346 0.007395 0.007387 0.007386 0.007385
海洋 海洋 民生 海洋 海洋 海洋 海洋 海洋
0.007013 0.007088 0.007230 0.007233 0.007245 0.007237 0.007236 0.007236
捷克 捷克 海洋 民生 民生 民生 民生 民生
0.006624 0.006520 0.006483 0.006467 0.006448 0.006442 0.006441 0.006440
国家队 以来 以来 以来 以来 以来 以来 以来
0.006522 0.006492 0.006456 0.006409 0.006389 0.006383 0.006383 0.006382
以来 国家队 国家队 国家队 国家队 国家队 国家队 国家队
窗口1 窗口2 窗口3 窗口4 窗口5 窗口6 窗口7 窗口8
0.015714 0.015778 0.015831 0.015875 0.015909 0.015935 0.015952 0.015960
一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路
0.005635 0.005652 0.005667 0.005679 0.005689 0.005696 0.005701 0.005703
国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛 国际合作高峰论坛
0.004295 0.004308 0.004318 0.004327 0.004334 0.004339 0.004342 0.004344
发展 发展 发展 发展 发展 发展 发展 发展
0.003924 0.003935 0.003945 0.003952 0.003958 0.003963 0.003966 0.003967
会见 会见 会见 会见 会见 会见 会见 会见
0.003551 0.003561 0.003569 0.003576 0.003582 0.003586 0.003588 0.003589
出席 出席 出席 出席 出席 出席 出席 出席
0.003338 0.003347 0.003354 0.003360 0.003365 0.003369 0.003371 0.003373
建设 建设 建设 建设 建设 建设 建设 建设
0.003236 0.003245 0.003252 0.003258 0.003263 0.003267 0.003269 0.003270
倡议 倡议 倡议 倡议 倡议 倡议 倡议 倡议
0.001424 0.001427 0.001429 0.001431 0.001433 0.001434 0.001434 0.001435
沿线国家 沿线国家 沿线国家 沿线国家 沿线国家 沿线国家 沿线国家 沿线国家
0.001375 0.001377 0.001380 0.001381 0.001383 0.001384 0.001385 0.001385
推进 推进 推进 推进 推进 推进 推进 推进
0.001148 0.001150 0.001152 0.001153 0.001154 0.001155 0.001156 0.001156
经济 经济 经济 经济 经济 经济 经济 经济
0.001113 0.001115 0.001116 0.001118 0.001119 0.001120 0.001120 0.001120
项目 项目 项目 项目 项目 项目 项目 项目
0.001057 0.001058 0.001060 0.001061 0.001062 0.001063 0.001063 0.001064
贸易 贸易 贸易 贸易 贸易 贸易 贸易 贸易
窗口1 窗口2 窗口3 窗口4 窗口5 窗口6 窗口7 窗口8
0.006283 0.006303 0.006319 0.006332 0.006343 0.006350 0.006356 0.006358
一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路 一带一路
0.003741 0.003751 0.003759 0.003766 0.003771 0.003775 0.003778 0.003779
建设 建设 建设 建设 建设 建设 建设 建设
0.003501 0.003510 0.003517 0.003524 0.003529 0.003532 0.003534 0.003536
全球 全球 全球 全球 全球 全球 全球 全球
0.003490 0.003499 0.003506 0.003513 0.003517 0.003521 0.003523 0.003524
发展 发展 发展 发展 发展 发展 发展 发展
0.003204 0.003213 0.003219 0.003225 0.003229 0.003232 0.003234 0.003235
文化 文化 文化 文化 文化 文化 文化 文化
0.002941 0.002948 0.002954 0.002959 0.002963 0.002966 0.002967 0.002968
企业 企业 企业 企业 企业 企业 企业 企业
0.002766 0.002773 0.002778 0.002783 0.002786 0.002789 0.002791 0.002791
合作 合作 合作 合作 合作 合作 合作 合作
0.002415 0.002420 0.002425 0.002429 0.002432 0.002434 0.002435 0.002436
旅游 旅游 旅游 旅游 旅游 旅游 旅游 旅游
0.002356 0.002362 0.002366 0.002370 0.002373 0.002375 0.002376 0.002377
经济 经济 经济 经济 经济 经济 经济 经济
0.002300 0.002305 0.002309 0.002313 0.002315 0.002317 0.002319 0.002319
青年 青年 青年 青年 青年 青年 青年 青年
0.001631 0.001634 0.001637 0.001639 0.00164 0.001642 0.001643 0.001643
投资 投资 投资 投资 投资 投资 投资 投资
0.001402 0.001404 0.001407 0.001408 0.001410 0.001411 0.001411 0.001412
共享 共享 共享 共享 共享 共享 共享 共享
[1] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[2] 廖君华, 孙克迎, 钟丽霞. 一种基于时序主题模型的网络热点话题演化分析系统[J]. 图书情报工作, 2013, 57(9): 96-102, 118.
doi: 10.7536/j.jssn.0252-3116.2013.09.016
[2] (Liao Junhua, Sun Keying, Zhong Lixia.Study on a Hot Topic Analysis System Based on Time Sliced Topic Model[J]. Library and Information Service, 2003, 57(9): 96-102, 118.)
doi: 10.7536/j.jssn.0252-3116.2013.09.016
[3] Wang X R, McCallum A. Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2006: 424-433.
[4] Ding W, Chen C.Dynamic Topic Detection and Tracking: A Comparison of HDP, C-word, and Cocitation Methods[J]. Journal of the Association for Information Science & Technology, 2014, 65(10): 2084-2097.
doi: 10.1002/asi.23134
[5] Blei D M, Lafferty J D.Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.
[6] Derntl M, Günnemann N, Klamma R.A Dynamic Topic Model of Learning Analytics Research[C]// Proceedings of International Symposium on Instrumentation and Measurement, Sensor Network and Automation. IEEE, 2013: 436-439.
[7] Ha T, Beijnon B, Kim S, et al.Examining User Perceptions of Smartwatch Through Dynamic Topic Modeling[J]. Telematics and Informatics, 2017, 34(7): 1262-1273.
doi: 10.1016/j.tele.2017.05.011
[8] 曹丽娜, 唐锡晋. 基于主题模型的BBS话题演化趋势分析[J]. 管理科学学报, 2014, 17(11): 109-121.
[8] (Cao Li’na, Tang Xijin.Trends of BBS Topic Based on Dynamic Topic Model[J]. Journal of Management Sciences in China, 2014, 17(11): 109-121.)
[9] 齐亚双, 祝娜, 翟羽佳. 基于DTM的国内外情报学研究主题热度演化对比研究[J]. 图书情报工作, 2016, 60(16): 99-109.
[9] (Qi Yashuang,Zhu Na,Zhai Yujia.A Comparative Study on Topic Heats Evolution in the Field of Information Science Between the Domestic and Foreign Research Based on DTM[J]. Library and Information Service, 2016, 60(16): 99-109.)
[10] 蒋卓人, 陈燕, 高良才, 等. 一种结合有监督学习的动态主题模型[J]. 北京大学学报: 自然科学版, 2015, 51(2): 367-376.
doi: 10.13209/j.0479-8023.2015.035
[10] (Jiang Zhuoren, Chen Yan, Gao Liangcai, et al.A Supervised Dynamic Topic Model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 367-376.)
doi: 10.13209/j.0479-8023.2015.035
[11] 李超雄, 黄发良, 温肖谦, 等. 基于动态主题情感混合模型的微博主题情感演化分析方法[J]. 计算机应用, 2015, 35(10): 2905-2910.
doi: 10.11772/j.issn.1001-9081.2015.10.2905
[11] (Li Chaoxiong, Huang Faliang, Wen Xiaoqian, et al.Evolution Analysis Method of Microblog Topic-Sentiment Based on Dynamic Topic Sentiment Combining Model[J]. Journal of Computer Applications, 2015, 35(10): 2905-2910.)
doi: 10.11772/j.issn.1001-9081.2015.10.2905
[12] 李慧, 胡云凤. 基于动态情感主题模型的在线评论分析[J].数据分析与知识发现, 2017, 1(9): 74-82.
[12] (Li Hui, Hu Yunfeng.Analyzing Online Reviews with Dynamic Sentiment Topic Model[J]. Data Analysis and Knowledge Discovery, 2017, 1(9): 74-82.)
[13] Gerrish S M, Blei D M.A Language-based Approach to Measuring Scholarly Impact[C]//Proceedings of International Conference on Machine Learning. DBLP, 2010: 375-382.
[1] Wang Xiwei,Jia Ruonan,Wei Yanan,Zhang Liu. Clustering User Groups of Public Opinion Events from Multi-dimensional Social Network[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[2] Li Guangjian,Wang Kai,Zhang Qingzhi. Analysis Framework Based on Multi-Source Data for US Export Control: An Empirical Study[J]. 数据分析与知识发现, 2020, 4(9): 26-40.
[3] Ye Guanghui,Xu Tong,Bi Chongwu,Li Xinyue. Analyzing Evolution of City Tourism Portraits with Multi-Dimensional Features and LDA Model[J]. 数据分析与知识发现, 2020, 4(11): 121-130.
[4] Si Wenfeng,Hu Guangwei. Examining E-Government Services of Chinese Cities with Geographical Regions, Government Channels and Administrative Dimensions[J]. 数据分析与知识发现, 2018, 2(9): 1-9.
[5] Wang Ling,Dai Qianjin,Wu Xiaojun. The Study on the Temporal and Spatial Distribution of Event Tourism Based on Large-scale Tourism Early Warning Platform[J]. 数据分析与知识发现, 2018, 2(8): 31-40.
[6] Mu Dongmei,Wang Ping,Zhao Danning. Reducing Data Dimension of Electronic Medical Records: An Empirical Study[J]. 数据分析与知识发现, 2018, 2(1): 88-98.
[7] Wang Yu,Li Xiuxiu. Evaluating Business Reputation with E-Commerce Comments[J]. 数据分析与知识发现, 2017, 1(8): 59-67.
[8] Wang Xueying,Zhang Zixuan,Wang Hao,Deng Sanhong. Evaluating Brands of Agriculture Products: A Literature Review[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[9] Xiong Huixiang,Jiang Wuxuan. Clustering and Recommending Users Based on Tags and Relation Network[J]. 数据分析与知识发现, 2017, 1(6): 36-46.
[10] Xie Jing,Wang Jingdong,Wu Zhenxin,Zhang Zhixiong,Wang Ying,Ye Zhifei. Building Semantic Enrichment Framework for Scientific Literature Retrieval System[J]. 数据分析与知识发现, 2017, 1(4): 84-93.
[11] Liu Bingyao,Ma Jing,Li Xiaofeng. Topic Representation Model Based on “Feature Dimensionality Reduction”[J]. 数据分析与知识发现, 2017, 1(11): 53-61.
[12] Zhai Dongsheng, Cai Liwei, Zhang Jie, Feng Xiuzhen. The Study of Patent Data Warehouse-based Technical Efficiency Map Mining Method——Taking 3D Printing Technology as an Example[J]. 现代图书情报技术, 2015, 31(7-8): 131-138.
[13] Qiang Shaohua, Wu Peng. The Research of Spatial Measure of Users' Mental Model of Website Category from the View of Regional Differences[J]. 现代图书情报技术, 2015, 31(11): 68-74.
[14] Qiu Junping, Yu Houqiang. The Research Development of Visual Analytics from the Perspective of VAST Conference[J]. 现代图书情报技术, 2014, 30(10): 14-24.
[15] Li Shanjie. Application and Implementation of Two-dimensional Bar Code on Library Book Inquiry Machine[J]. 现代图书情报技术, 2014, 30(1): 97-101.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn