Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (3): 98-106    DOI: 10.11925/infotech.2096-3467.2017.1058
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
基于LDA主题模型的文献关联分析及可视化研究
王丽(),邹丽雪,刘细文
中国科学院文献情报中心 北京 100190
中国科学院大学 北京 100049
Visualizing Document Correlation Based on LDA Model
Li Wang(),Lixue Zou,Xiwen Liu
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF(4133 KB)   HTML ( 1
输出: BibTeX | EndNote (RIS)      
摘要 

目的】基于机器学习进行有效的科研主题发现与分析建模研究。【方法】以LDA主题模型为基础进行科研主题发现, 通过Python语言实现分析建模, 关联分析科研主题的年代、机构、基础研究与应用研发等信息, 对比披露了各年代、机构的研发重点及基础研究和应用研究的差异, 并对结果进行可视化。【结果】基于101 813条石墨烯领域的论文和专利数据进行实证分析, 结果表明通过建模进行12个主题的发现、关联分析及其可视化全流程可在很短时间(约2分钟)内完成, 通过机器学习的手段突破了传统分析工具以及数据分析体量的局限性, 提升了针对大量文本数据信息挖掘及分析的效率。【局限】尚未探讨主题间关联关系权重及主题演进等涉及复杂网络分析的内容。【结论】机器学习对情报分析有着无限可能, 需要基于实际需求开发更多有效的分析模型, 满足大文本分析和可视化。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王丽
邹丽雪
刘细文
关键词 LDA主题模型数据分析机器学习Python数据可视化    
Abstract

[Objective] This paper tries to construct data analysis model for the topics of scientific research based on machine learning. [Methods] First, we clustered data with the Latent Dirichlet Allocation model. Then, we investigated the correlation among year, institution and research types with the help of Python modules. Finally, we revealed and visualized the key research areas of every year or institution. [Results] We analyzed 101,813 papers and patents of graphene industray research. The proposed method finished the topic identification, correlation analysis, and visualization in about two miniutes. [Limitations] More research is needed to explore the network analysis issues. [Conclusions] Machine learning provides enormous potentiality for intelligence studies, especially the large volume text analytics and visualization.

Key wordsLDA Model    Data Analysis    Machine Learning    Python    Data Visualization
收稿日期: 2017-10-24     
引用本文:   
王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
Li Wang,Lixue Zou,Xiwen Liu. Visualizing Document Correlation Based on LDA Model. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2017.1058.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1058
[1] Blei M D, Ng Y A, Jordan I M.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[2] Lee W S, Han E J, Sohn S Y.Predicting the Pattern of Technology Convergence Using Big-Data Technology on Large-Scale Triadic Patents[J]. Technological Forecasting & Social Change, 2015, 100: 317-329.
[3] 王博, 刘盛博, 丁堃, 等. 基于LDA 主题模型的专利内容分析方法[J]. 科研管理, 2015, 36(3):111-117.
[3] (Wang Bo, Liu Shengbo, Ding Kun, et al.Patent Content Analysis Method Based on LDA Topic Model[J]. Science Research Management, 2015, 36(3): 111-117.)
[4] 任智军, 乔晓东, 张江涛. 新兴技术发现模型研究[J]. 现代图书情报技术, 2016(8): 60-69.
[4] (Ren Zhijun, Qiao Xiaodong, Zhang Jiangtao.Discover Emerging Technologies with LDA Model[J]. New Technology of Library and Information Service, 2016(8): 60-69.)
[5] 杨超, 朱东华, 汪雪锋, 等. 专利技术主题分析: 基于SAO 结构的LDA 主题模型方法[J]. 图书情报工作, 2017, 61(3):86-96.
[5] (Yang Chao, Zhu Donghua, Wang Xuefeng, et al.Technical Topic Analysis in Patents: SAO-based LDA Modeling[J]. Library and Information Service, 2017, 61(3): 86-96.)
[6] Suominen A, Toivanen H, Sepp?nen M.Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning[J]. Technological Forecasting & Social Change, 2017, 115: 131-142.
[1] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法
研究 *
[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[2] 董晓舟,陈信康. 电子折扣券弹性与经济效益的关系研究 ——一个基于电商平台大数据的混合模型[J]. 数据分析与知识发现, 2019, 3(6): 42-49.
[3] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[4] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[5] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[6] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[7] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[8] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[9] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[10] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[11] 刘丽娜,齐佳音,张镇平,曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[12] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[13] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[14] 李贺,祝琳琳,闫敏,刘金承,洪闯. 开放式创新社区用户信息有用性识别研究*[J]. 数据分析与知识发现, 2018, 2(12): 12-22.
[15] 范馨月,崔雷. 基于网络属性的抗肿瘤药物靶点预测方法及其应用*[J]. 数据分析与知识发现, 2018, 2(12): 98-108.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn