Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (10): 59-69     https://doi.org/10.11925/infotech.1003-3513.2016.10.07
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于流形学习的新闻主题关系构建和演化研究*
徐月梅1(),李杨2,3,梁野1,蔡连侨1
1北京外国语大学计算机系 北京 100089
2中国科学院信息工程研究所 北京 100093
3中国科学院大学 北京 100049
Analyzing Evolution of News Topics with Manifold Learning
Xu Yuemei1(),Li Yang2,3,Liang Ye1,Cai Lianqiao1
1Department of Computer Science, Beijing Foreign Studies University, Beijing 100089, China
2Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China
3University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF (1562 KB)   HTML ( 23
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过对以互联网为媒介的新闻报道的主题演化研究, 分析新闻主题的产生、发展和演变过程, 把握媒体舆论方向。【方法】引入流形学习构建全局时间跨度的新闻主题关联关系, 挖掘由LDA主题模型识别得到的各个时间窗口的高维主题向量间的关系, 在低维平面上实现主题聚类和相互关联的可视化, 提出利用社会网络理论指标分析主题的演化结果。【结果】利用2015年美国有线电视新闻网对中国的新闻报道进行主题关系构建和演化, 结果表明该方法能够发现主题在全局时间跨度的演化趋势。【局限】时间窗口长度对主题演化的效果和可变时间窗口长度机制没有涉及。【结论】新闻主题演化分析方法能够在低维可视平面上描绘主题在全局时间跨度的演化, 避免主题由于相邻时间窗口关联失效而导致全局演化路径的断裂。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐月梅
李杨
梁野
蔡连侨
关键词 潜在狄利克雷分配模型流形学习主题关联主题演化    
Abstract

[Objective] This study aims to examine the creation and development of online news topics, and then to gauge the public opinion. [Methods] First, we introduced the manifold learning technology to analyze the news topics. Second, we explored the relations among the high dimensional topics from each time window, which were identified by the LDA model. Third, we clustered these topics and visualized the relations among them in the low-dimensional space. Finally, we analyzed the topic evolution with the help of social network theorem. [Results] The proposed method could effectively identify the topic evolution trends of news reports on China from CNN in 2015. [Limitations] We did not fully explore the impacts of time windows. [Conclusions] This study provides a new method to visualize the evolution of news report topics over a period of time, which avoids inaccurate description due to the changing of adjacent time windows.

Key wordsLatent Dirichlet Allocation    Manifold learning    Topic relevance    Topic evolution
收稿日期: 2016-05-13      出版日期: 2016-11-23
基金资助:*本文系国家社会科学基金重大委托项目“语言大数据挖掘与文化价值发现”(项目编号:14@ZH036)、北京市社会科学基金研究基地项目“北京对外文化传播过程中‘两微一端’影响力比较研究”(项目编号:15JDZHC011)和中央高校基本科研业务费专项资金资助项目“对外传播过程中互联网用户行为特征和影响力研究”(项目编号:023600-500110002)的研究成果之一
引用本文:   
徐月梅,李杨,梁野,蔡连侨. 基于流形学习的新闻主题关系构建和演化研究*[J]. 现代图书情报技术, 2016, 32(10): 59-69.
Xu Yuemei,Li Yang,Liang Ye,Cai Lianqiao. Analyzing Evolution of News Topics with Manifold Learning. New Technology of Library and Information Service, 2016, 32(10): 59-69.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.10.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2016/V32/I10/59
[1] Samovar L A, Porter R E, McDaniel E R, et al. Communication Between Cultures[M]. Wadsworth, 2015.
[2] 楚克明, 李芳. 基于LDA模型的新闻主题的演化[J]. 计算机应用与软件, 20l1, 28(4): 4-7, 26.
[2] (Chu Keming, Li Fang.LDA Model-based News Topic Evolution[J]. Computer Applications and Software, 2011, 28(4): 4-7, 26.)
[3] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[4] 楚克明. 基于LDA的新闻话题演化研究[D]. 上海: 上海交通大学, 2010.
[4] (Chu Keming.The Reaearch on Topic Evolution for News Based on LDA Model [D]. Shanghai: Shanghai Jiaotong University, 2010.)
[5] 胡艳丽, 白亮, 张维明. 一种话题演化建模与分析方法[J]. 自动化学报, 2012, 38(10): 1690-1697.
[5] (Hu Yanli, Bai Liang, Zhang Weiming.Modeling and Analyzing Topic Evolution[J]. Acta Automatic Sinica, 2012, 38(10): l690-1697.)
[6] Seung H S, Lee D D.Cognition-The Manifold Ways of Perception[J]. Science, 2000, 290(5500): 2268-2269.
[7] Donoho D L.High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality [C]. In: Proceedings of International Conference of Mathematicians, Paris, France. 2000: 6-11.
[8] Wang X, McCallum A. Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends [C]. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2006: 424-433.
[9] Blei D M, Lafferty J D.Dynamic Topic Models [C]. In: Proceedings of the 23rd International Conference on Machine Learning. 2006: 113-120.
[10] Hall D, Jurafsky D, Manning C D.Studying the History of Ideas Using Topic Models [C]. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2008: 363-371.
[11] 崔凯, 周斌, 贾焰, 等. 一种基于LDA的在线主题演化挖掘模型[J]. 计算机科学, 2010, 37(11): 156-159, 193.
[11] (Cui Kai, Zhou Bin, Jia Yan, et al.LDA-based Model for Online Topic Evolution Mining[J]. Computer Science, 2010, 37(11): 156-159, 193.)
[12] 李保利, 杨星. 基于LDA模型和话题过滤的研究主题演化分析[J]. 小型微型计算机系统, 2012, 33(12): 2738-2743.
[12] (Li Baoli, Yang Xing.Analyzing Research Topic Evolution with LDA and Topic Filtering[J]. Journal of Chinese Computer Systems, 2012, 33(12): 2738-2743.)
[13] 秦晓慧, 乐小虬. 基于LDA主题关联过滤的领域主题演化研究[J]. 现代图书情报技术, 2015(3): 18-25.
[13] (Qin Xiaohui, Le Xiaoqiu.Topic Evolution Research on a Certain Field Based on LDA Topic Association Filter[J]. New Technology of Library and Information Service, 2015(3): 18-25.)
[14] Griffiths T L, Steyvers M.Finding Scientific Topics[J]. Proceedings of the National Academy Sciences of the United States of America, 2004, 101(1): 5228-5235.
[15] Cao J, Xia T, Li J.A Density-based Method for Adaptive LDA Model Selection[J]. Neurocomputing, 2009, 72(7-9): 1775-1781.
[16] Law M H C, Jain A K. Incremental Nonlinear Dimensionality Reduction by Manifold Learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(3): 377-391.
[17] Tenenbaum J B, De Silva V, Langford J C.A Global Geometric Framework for Nonlinear Dimensionality Reduction[J]. Science, 2000, 290(5500): 2319-2323.
[18] Roweis S T, Saul L K.Nonlinear Dimensionality Reduction by Locally Linear Embedding[J]. Science, 2000, 290(5500): 2323-2326.
[19] Maning C D, Schütze H, Raghavan P.信息检索导论[M]. 王斌译. 北京: 人民邮电出版社, 2011.
[19] (Manning C D, Schütze H, Raghavan P.Introduction to Information Retrieval [M]. Translated by Wang Bin. Beijing: Post &Telecom Press, 2011.)
[20] Costa L, Da F, Rodrigues F A, et al.Characterization of Complex Networks: A Survey of Measurements[J]. Advances in Physics, 2007, 56(1): 167-242.
[21] GooSeeker [EB/OL]. .
[22] Hartigan J A, Wong M A.Algorithm AS: A K-means Clustering Algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 100-108.
[23] Pajek: Analysis and Visualization of Large Networks [EB/OL]. .
[1] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
[2] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[3] 岳丽欣,刘自强,胡正银. 面向趋势预测的热点主题演化分析方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 22-34.
[4] 吴江,刘冠君,胡仙. 在线医疗健康研究的系统综述: 研究热点、主题演化和研究方法*[J]. 数据分析与知识发现, 2019, 3(4): 2-12.
[5] 张金柱,王玥,胡一鸣. 基于专利科学引文内容表示学习的科学技术主题关联分析研究 *[J]. 数据分析与知识发现, 2019, 3(12): 52-60.
[6] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[7] 何伟林, 奉国和, 谢红玲. 基于CSToT模型的科技文献主题发现与演化研究*[J]. 数据分析与知识发现, 2018, 2(11): 64-72.
[8] 曲佳彬, 欧石燕. 基于主题过滤与主题关联的学科主题演化分析*[J]. 数据分析与知识发现, 2018, 2(1): 64-75.
[9] 王曰芬,靳嘉林. 比较分析《现代图书情报技术》近10年发文特征与发展趋势*[J]. 现代图书情报技术, 2016, 32(9): 1-16.
[10] 赵冬晓,王效岳,白如江,刘自强. 面向情报研究的文本语义挖掘方法述评*[J]. 现代图书情报技术, 2016, 32(10): 13-24.
[11] 秦晓慧, 乐小虬. 基于LDA主题关联过滤的领域主题演化研究[J]. 现代图书情报技术, 2015, 31(3): 18-25.
[12] 赵迎光, 洪娜, 安新颖. 主题模型在主题演化方法中的应用研究进展[J]. 现代图书情报技术, 2014, 30(10): 63-69.
[13] 王强. 基于事务标识列表的关联规则挖掘算法[J]. 现代图书情报技术, 2008, 24(8): 63-69.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn