Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (11): 64-72     https://doi.org/10.11925/infotech.2096-3467.2018.0292
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于CSToT模型的科技文献主题发现与演化研究*
何伟林(), 奉国和, 谢红玲
华南师范大学经济与管理学院 广州 510006
Analyzing Scientific Literature with Content Similarity - Topics over Time Model
He Weilin(), Feng Guohe, Xie Hongling
School of Economics & Management, South China Normal University, Guangzhou 510006, China
全文: PDF (1106 KB)   HTML ( 1
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】分析某研究领域科技文献在一段时间内的主题结构并追踪其变化。【方法】基于改进的主题模型CSToT(Content Similarity-Topics over Time), 以国内情报学领域9种期刊作为数据来源, 分析国内情报学领域2012年-2016年的研究主题结构以及其演化过程。【结果】CSToT模型能清晰揭示科技文献主题结构, 并获得主题演化关系。对案例数据分析后发现, 国内情报学领域研究范围广泛, 涉及信息服务、网络舆情、数据挖掘等方面; 演化趋势分为上升型、下降型、稳定型和波动型4种; 关于信息服务的研究路线演化尤为凸显。【局限】训练数据规模不够大。【结论】CSToT模型能有效识别科技文献主题结构并获取其演化关系, 为相关学科领域的研究与发展提供参考和依据。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
何伟林
奉国和
谢红玲
关键词 ToT主题模型主题发现主题演化    
Abstract

[Objective] This paper studies the topics of scientific literature and then tracks their changes.[Methods] We used the improved CSToT Model (Content Similarity - Topics over Time), to analyze scholarly papers from 9 information science journals in China published from 2012-2016. [Results] The CSToT model effectively revealed the subject structure of scientific literature and the evolution of topics. We also found that majority of the current information science research covers information services, online public opinion and data mining. Their evolution trends include rising, falling, stable and fluctuating patterns, which are particularly prominent in information services research. [Limitations] The training data set needs to be expanded. [Conclusions] The CSToT model could effectively identify the topics of scientific literature and their evolutionary trends, which provide new directions for future research.

Key wordsTopics over Time Topic Model    Topic Extraction    Topic Evolution
收稿日期: 2018-03-16      出版日期: 2018-12-11
ZTFLH:  G202  
基金资助:*本文系国家社会科学基金项目“基于文本挖掘的科技文献知识发现研究”(项目编号: 16BTQ071)和2016年华南师范大学研究生创新项目“基于深度学习的科技文献挖掘研究”(项目编号: 2016wkxm62)的研究成果之一
引用本文:   
何伟林, 奉国和, 谢红玲. 基于CSToT模型的科技文献主题发现与演化研究*[J]. 数据分析与知识发现, 2018, 2(11): 64-72.
He Weilin,Feng Guohe,Xie Hongling. Analyzing Scientific Literature with Content Similarity - Topics over Time Model. Data Analysis and Knowledge Discovery, 2018, 2(11): 64-72.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0292      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I11/64
  Topics over Time主题模型
  CSToT模型流程框架
期刊名称 文献数量(篇) 期刊名称 文献数量(篇)
情报学报 674 图书情报知识 433
情报杂志 2 213 图书情报工作 3 146
情报科学 1 855 情报理论与实践 1 653
图书与情报 747 现代图书情报技术 783
情报资料工作 591
  数据来源分布
  困惑度对比
  2012年-2016年国内情报学文献主题结构
  2012年-2016年情报学主题强度演化趋势
  2012年-2016年国内情报学主题演化网络
1305 1308 1401 1402 1505 1506 1510 1603 1605 1606 1607
知识管理 知识共享 知识共享 知识管理 信息共享 数据管理 知识共享 知识服务 数据管理 竞争情报 信息素养
知识服务 知识转移 知识服务 隐性知识 国家安全 数据共享 知识管理 信息管理 应急管理 大数据 信息管理
可视化 知识服务 知识管理 信息资源 机构知识库 机构知识库 科技情报 数据管理 信息管理 内容分析 知识管理
知识图谱 信息生态 社会资本 知识共享 大数据 科研数据 大数据 服务模式 网络舆情 情报分析 数据管理
知识转移 知识库 社会网络 知识转移 网络舆情 科研人员 信息服务 图书馆服务 突发事件 社会网络 机构知识库
信息管理 资源共享 微博 模型 突发事件 科研机构 情报分析 大数据 大数据 社会化媒体 大数据
技术创新 复杂网络 模型 竞争情报 竞争情报 信息分析 竞争情报 互联网 社会网络 社会网络分析 互联网
本体 竞争情报 企业 企业 情报研究 h指数 专利分析 战略规划 本体 微博 情报保障
政府 企业 社会化媒体 社会网络 情报分析 文献计量学 协同创新 评价体系 智慧城市 模型 社会化媒体
数字图书馆 结构方程模型 社会网络分析 机构知识库 情报 期刊评价 情报 评价指标 微博 可视化 信息传播
  主题的不断分化
1208 1306
服务模式 服务体系
知识服务 信息服务
知识组织 知识服务
知识共享 移动服务
信息检索 知识共享
知识创新 社交网络
信息服务 技术创新
知识管理 企业
用户需求 社会网络
系统动力学 可视化
  主题的收缩
[1] 赵蓉英, 魏明坤. 基于引文分析视角的知识管理主题研究——以图书情报领域为例[J]. 情报科学, 2017, 35(6): 3-8.
[1] (Zhao Rongying, Wei Mingkun.Research on the Subject of Knowledge Management Based on Citation Analysis: From the Perspective of Library and Information Science[J]. Information Science, 2017, 35(6): 3-8.)
[2] 方瑀绅. 科技教育研究主题发展趋势的引文分析: 1994-2013[J]. 中国图书馆学报, 2016, 42(1): 109-125.
doi: 10.13530/j.cnki.jlis.161009
[2] (Fang Yushen.Trends of Research Topics in the Technology Education: A Citation Analysis from 1994 to 2013[J]. Journal of Library Science in China, 2016, 42(1): 109-125.)
doi: 10.13530/j.cnki.jlis.161009
[3] 储节旺, 钱倩. 基于词频分析的近10年知识管理的研究热点及研究方法[J]. 情报科学, 2014, 32(10): 156-160.
[3] (Chu Jiewang, Qian Qian.Analysis of Research Focus and Research Methods in the Field of Knowledge Management During the Past Decade[J]. Information Science, 2014, 32(10): 156-160.)
[4] 郑彦宁, 许晓阳, 刘志辉. 基于关键词共现的研究前沿识别方法研究[J]. 图书情报工作, 2016, 60(4): 85-92.
doi: 10.13266/j.issn.0252-3116.2016.04.012
[4] (Zheng Yanning, Xu Xiaoyang, Liu Zhihui.Study on the Method of Identifying Research Fronts Based on Keywords Co-occurrence[J]. Library and Information Service, 2016, 60(4): 85-92.)
doi: 10.13266/j.issn.0252-3116.2016.04.012
[5] 唐果媛. 基于共词分析法的学科主题演化研究方法的构建[J]. 图书情报工作, 2017, 61(23): 100-107.
doi: 10.13266/j.issn.0252-3116.2017.23.012
[5] (Tang Guoyuan.Building the Method System of the Subject Theme Evolution Based on the Co-word Analysis Method[J]. Library and Information Service, 2017, 61(23): 100-107.)
doi: 10.13266/j.issn.0252-3116.2017.23.012
[6] Deerwester S.Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
doi: 10.1002/(ISSN)1097-4571
[7] Hofmann T.Probabilistic Latent Semantic Analysis[C]// Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence. 1999: 289-296.
[8] Blei D M, Ng A Y, Jordan M L, et al.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3(2): 993-1022.
[9] Blei D M, Lafferty J D.Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM, 2006: 113-120.
[10] 齐亚双, 祝娜, 翟羽佳. 基于DTM的国内外情报学研究主题热度演化对比研究[J]. 图书情报工作, 2016, 60(16): 99-109.
[10] (Qi Yashuang, Zhu Na, Zhai Yujia.A Comparative Study on Topic Heats Evolution in the Field of Information Science Between the Domestic and Foreign Research Based on DTM[J]. Library and Information Service, 2016, 60(16): 99-109.)
[11] Wang C, Blei D M, Heckerman D.Continuous Time Dynamic Topic Models[OL]. arXiv Preprint, arXiv: 1206.3298.
[12] 刘良选, 黄梦醒. 一种面向词汇突发的连续时间主题模型[J]. 计算机工程, 2016, 42(11): 195-201.
doi: 10.3969/j.issn.1000-3428.2016.11.032
[12] (Liu Liangxuan, Huang Mengxing.A Continuous-time Topic Model for Word Burstiness[J]. Computer Engineering, 2016, 42(11): 195-201.)
doi: 10.3969/j.issn.1000-3428.2016.11.032
[13] Wang X, MCCallum A.Topics Over Time: A Non-Markov Continuous-time Model of Topical Trends[C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 424-433.
[14] Alsumalt L, Barbara D, Domeniconi C.Online LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]// Proceedings of the 8th IEEE International Conference on Data Mining. IEEE, 2008: 3-12.
[15] 何建云, 陈兴蜀, 杜敏, 等. 基于改进的在线LDA模型的主题演化分析[J]. 中南大学学报: 自然科学版, 2015, 46(2): 547-553.
[15] (He Jianyun, Chen Xingshu, Du Min, et al.Topic Evolution Analysis Based on Improved Online LDA Model[J]. Journal of Central South University: Science and Technology, 2015, 46(2): 547-553.)
[16] 陈兴蜀, 高悦, 江浩, 等. 基于OLDA的热点话题演化跟踪模型[J]. 华南理工大学学报: 自然科学版, 2016, 44(5): 130-136.
doi: 10.3969/j.issn.1000-565X.2016.05.020
[16] (Chen Xingshu, Gao Yue, Jiang Hao, et al.OLDA-Based Model for Hot Topic Evolution and Tracking[J]. Journal of South China University of Technology: Natural Science Edition, 2016, 44(5): 130-136.)
doi: 10.3969/j.issn.1000-565X.2016.05.020
[17] 裴可锋, 陈永洲, 马静. 基于OLDA的可变在线主题演化模型[J]. 情报科学, 2017, 35(5): 63-68.
[17] (Pei Kefeng, Chen Yongzhou, Ma Jing.Variable Online Theme Evolution Model Based on OLDA[J]. Information Science, 2017, 35(5): 63-68.)
[18] 史明哲, 吴国栋, 张倩, 等. 多主题受限玻尔兹曼机的长尾分布推荐研究[J]. 小型微型计算机系统, 2018, 39(2): 304-309.
[18] (Shi Mingzhe, Wu Guodong, Zhang Qian, et al.Research on the Long Tail Distribution Recommendation of the Multi-topic and RBM[J]. Journal of Chinese Computer Systems, 2018, 39(2): 304-309.)
[19] 王行甫, 付欢欢, 王琳. 基于余弦相似度和实例加权改进的贝叶斯算法[J]. 计算机系统应用, 2016, 25(8): 166-170.
[19] (Wang Xingfu, Fu Huanhuan, Wang Lin.Improved Naïve Bayes Algorithm Based on Weighted Instance with Cosine Similarity[J]. Computer Systems and Applications, 2016, 25(8): 166-170.)
[20] 史庆伟, 乔晓东, 徐硕, 等. 作者主题演化模型及其在研究兴趣演化分析中的应用[J]. 情报学报, 2013, 32(9): 912-919.
doi: 10.3772/j.issn.1000-0135.2013.09.002
[20] (Shi Qingwei, Qiao Xiaodong, Xu Shuo, et al.Author-Topic Evolution Model and Its Application in Analysis of Research Interests Evolution[J]. Journal of the China Society for Scientific and Technical Information, 2013, 32(9): 912-919.)
doi: 10.3772/j.issn.1000-0135.2013.09.002
[21] Sugimoto C R, Li D, Russell T G, et al.The Shifting Sands of Disciplinary Development: Analyzing North American Library and Information Science Dissertations Using Latent Dirichlet Allocation[J]. Journal of the Association for Information Science & Technology, 2011, 62(1): 185-204.
[22] 徐路路, 王效岳, 白如江, 等. 基于DTM模型和文本特征分析的基金项目新兴趋势探测研究——以NSF石墨烯领域为例[J]. 数据分析与知识发现, 2018, 2(3): 87-97.
[22] (Xu Lulu, Wang Xiaoyue, Bai Rujiang, et al.Detecting Emerging Trends of Funds Based on DTM Model and Text Analytics: Case Study of NSF Graphene Field[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 87-97.)
[1] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
[2] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[3] 邵琦,牟冬梅,王萍,靳春妍. 基于语义的突发公共卫生事件网络舆情主题发现研究*[J]. 数据分析与知识发现, 2020, 4(9): 68-80.
[4] 岳丽欣,刘自强,胡正银. 面向趋势预测的热点主题演化分析方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 22-34.
[5] 吴江,刘冠君,胡仙. 在线医疗健康研究的系统综述: 研究热点、主题演化和研究方法*[J]. 数据分析与知识发现, 2019, 3(4): 2-12.
[6] 曲佳彬, 欧石燕. 基于主题过滤与主题关联的学科主题演化分析*[J]. 数据分析与知识发现, 2018, 2(1): 64-75.
[7] 王曰芬,靳嘉林. 比较分析《现代图书情报技术》近10年发文特征与发展趋势*[J]. 现代图书情报技术, 2016, 32(9): 1-16.
[8] 赵冬晓,王效岳,白如江,刘自强. 面向情报研究的文本语义挖掘方法述评*[J]. 现代图书情报技术, 2016, 32(10): 13-24.
[9] 徐月梅,李杨,梁野,蔡连侨. 基于流形学习的新闻主题关系构建和演化研究*[J]. 现代图书情报技术, 2016, 32(10): 59-69.
[10] 唐晓波, 邱鑫. 面向主题的高质量评论挖掘模型研究[J]. 现代图书情报技术, 2015, 31(7-8): 104-112.
[11] 秦晓慧, 乐小虬. 基于LDA主题关联过滤的领域主题演化研究[J]. 现代图书情报技术, 2015, 31(3): 18-25.
[12] 叶川, 马静. 多媒体微博评论信息的主题发现算法研究[J]. 现代图书情报技术, 2015, 31(11): 51-59.
[13] 赵迎光, 洪娜, 安新颖. 主题模型在主题演化方法中的应用研究进展[J]. 现代图书情报技术, 2014, 30(10): 63-69.
[14] 赵琦,张智雄,孙坦. 文本可视化及其主要技术方法研究*[J]. 现代图书情报技术, 2008, 24(8): 24-30.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn