Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (3): 98-106    DOI: 10.11925/infotech.2096-3467.2017.1058
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
基于LDA主题模型的文献关联分析及可视化研究
王丽(),邹丽雪,刘细文
中国科学院文献情报中心 北京 100190
中国科学院大学 北京 100049
Visualizing Document Correlation Based on LDA Model
Li Wang(),Lixue Zou,Xiwen Liu
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF(4133 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 

目的】基于机器学习进行有效的科研主题发现与分析建模研究。【方法】以LDA主题模型为基础进行科研主题发现, 通过Python语言实现分析建模, 关联分析科研主题的年代、机构、基础研究与应用研发等信息, 对比披露了各年代、机构的研发重点及基础研究和应用研究的差异, 并对结果进行可视化。【结果】基于101 813条石墨烯领域的论文和专利数据进行实证分析, 结果表明通过建模进行12个主题的发现、关联分析及其可视化全流程可在很短时间(约2分钟)内完成, 通过机器学习的手段突破了传统分析工具以及数据分析体量的局限性, 提升了针对大量文本数据信息挖掘及分析的效率。【局限】尚未探讨主题间关联关系权重及主题演进等涉及复杂网络分析的内容。【结论】机器学习对情报分析有着无限可能, 需要基于实际需求开发更多有效的分析模型, 满足大文本分析和可视化。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王丽
邹丽雪
刘细文
关键词 LDA主题模型数据分析机器学习Python数据可视化    
Abstract

[Objective] This paper tries to construct data analysis model for the topics of scientific research based on machine learning. [Methods] First, we clustered data with the Latent Dirichlet Allocation model. Then, we investigated the correlation among year, institution and research types with the help of Python modules. Finally, we revealed and visualized the key research areas of every year or institution. [Results] We analyzed 101,813 papers and patents of graphene industray research. The proposed method finished the topic identification, correlation analysis, and visualization in about two miniutes. [Limitations] More research is needed to explore the network analysis issues. [Conclusions] Machine learning provides enormous potentiality for intelligence studies, especially the large volume text analytics and visualization.

Key wordsLDA Model    Data Analysis    Machine Learning    Python    Data Visualization
收稿日期: 2017-10-24     
引用本文:   
王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
Li Wang,Lixue Zou,Xiwen Liu. Visualizing Document Correlation Based on LDA Model. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2017.1058.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1058
图1  基于LDA模型的研究框架和流程(以CAS数据为例)
主题1 石墨烯建模仿真 主题2 石墨烯电化学性能 主题3 石墨烯FET器件 主题4 石墨烯反常霍尔效应
特征词 概率 特征词 概率 特征词 概率 特征词 概率
monolayers 0.040 surface structure 0.075 electric current-potential relationship 0.100 magnetic field effects 0.037
simulation and modeling 0.033 nanoparticles 0.073 electric conductivity 0.052 electric conductivity 0.030
multilayers 0.024 cyclic voltammetry 0.051 electric resistance 0.050 electron transport 0.027
electric field effects 0.022 nanocomposites 0.049 electric capacitance 0.043 nanoribbons 0.026
phonon 0.017 glassy carbon electrodes 0.033 electrodes 0.043 band structure 0.025
electric conductivity 0.016 Nano sheets 0.032 field effect transistors 0.038 fermi level 0.023
electric current carriers 0.015 electron transfer 0.022 double layer capacitors 0.035 quantum hall effect 0.020
optical transmission 0.014 electric impedance 0.021 raman spectra 0.034 landau level 0.018
semiconductor materials 0.014 x-ray diffraction 0.020 solar cells 0.023 magnetization 0.017
dielectric constant 0.013 ph 0.019 electric impedance 0.019 tight-binding method 0.015
主题5 石墨烯/
碳纳米管复合材料
主题6石墨烯生物相容性 主题7 氧化石墨烯 主题8 石墨烯高
分子复合材料
特征词 概率 特征词 概率 特征词 概率 特征词 概率
films 0.045 human 0.031 reduction 0.039 polyesters 0.035
chemical vapor deposition 0.036 electronic device fabrication 0.021 oxidation 0.036 carbon nanotubes 0.034
carbon nanotubes 0.034 surface treatment 0.016 adsorption 0.033 epoxy resins 0.022
annealing 0.026 homo sapiens 0.014 surface area 0.033 polysiloxanes 0.020
electric conductors 0.025 chemically modified electrodes 0.014 Nano sheets 0.017 polyimides 0.020
etching 0.020 ph 0.014 nanostructured materials 0.017 polyurethanes 0.019
metals 0.020 quantum dots 0.013 sonication 0.017 polyamides 0.018
coating process 0.020 stability 0.013 exfoliation 0.016 polyoxyalkylenes 0.015
electrodes 0.018 fluorescence 0.012 pore size distribution 0.016 polyethers 0.015
sheet resistance 0.018 nanoscale surface modification 0.012 pore size 0.015 coating materials 0.014
主题9 石墨烯
纳米带
主题10 石墨烯
复合材料的光学性
主题11 石墨烯
复合材料的力学性
主题12 石墨烯
储能电池
特征词 概率 特征词 概率 特征词 概率 特征词 概率
density of states 0.057 raman spectra 0.093 nanocomposites 0.049 secondary batteries 0.063
band gap 0.051 microstructure 0.044 thermal conductivity 0.031 carbon nanotubes 0.057
nanoribbons 0.044 x-ray photoelectron spectra 0.041 thermal stability 0.030 composites 0.053
density functional theory 0.043 nanoparticles 0.041 polymer morphology 0.028 fluoropolymers 0.047
band structure 0.036 nanocomposites 0.038 young's modulus 0.028 carbon black 0.035
electronic structure 0.035 surface structure 0.037 electric conductivity 0.024 battery anodes 0.034
binding energy 0.026 nanostructures 0.036 carbon nanotubes 0.020 lithium-ion secondary batteries 0.023
electron density 0.023 uv and visible spectra 0.032 tensile strength 0.020 heat treatment 0.020
fermi level 0.020 nanosheets 0.029 molecular dynamics simulation 0.020 battery cathodes 0.015
band structure 0.020 ir spectra 0.025 strain 0.017 carbon fibers 0.015
表1  石墨烯领域主题-特征词分布
图2  石墨烯领域主题分布
图3  石墨烯领域主题年代演进对比分析
图4  石墨烯领域12个主题的Top10机构分析
图5  石墨烯领域Top10机构的12个主题对比分析
图6  石墨烯领域研发对比分析
[1] Blei M D, Ng Y A, Jordan I M.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[2] Lee W S, Han E J, Sohn S Y.Predicting the Pattern of Technology Convergence Using Big-Data Technology on Large-Scale Triadic Patents[J]. Technological Forecasting & Social Change, 2015, 100: 317-329.
doi: 10.1016/j.techfore.2015.07.022
[3] 王博, 刘盛博, 丁堃, 等. 基于LDA 主题模型的专利内容分析方法[J]. 科研管理, 2015, 36(3):111-117.
(Wang Bo, Liu Shengbo, Ding Kun, et al.Patent Content Analysis Method Based on LDA Topic Model[J]. Science Research Management, 2015, 36(3): 111-117.)
[4] 任智军, 乔晓东, 张江涛. 新兴技术发现模型研究[J]. 现代图书情报技术, 2016(8): 60-69.
(Ren Zhijun, Qiao Xiaodong, Zhang Jiangtao.Discover Emerging Technologies with LDA Model[J]. New Technology of Library and Information Service, 2016(8): 60-69.)
[5] 杨超, 朱东华, 汪雪锋, 等. 专利技术主题分析: 基于SAO 结构的LDA 主题模型方法[J]. 图书情报工作, 2017, 61(3):86-96.
doi: 10.13266/j.issn.0252-3116.2017.03.012
(Yang Chao, Zhu Donghua, Wang Xuefeng, et al.Technical Topic Analysis in Patents: SAO-based LDA Modeling[J]. Library and Information Service, 2017, 61(3): 86-96.)
[6] Suominen A, Toivanen H, Sepp?nen M.Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning[J]. Technological Forecasting & Social Change, 2017, 115: 131-142.
doi: 10.1016/j.techfore.2016.09.028
[1] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[2] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[3] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[4] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[5] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[6] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[7] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[8] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[9] 刘丽娜,齐佳音,张镇平,曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[10] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[11] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[12] 李贺,祝琳琳,闫敏,刘金承,洪闯. 开放式创新社区用户信息有用性识别研究*[J]. 数据分析与知识发现, 2018, 2(12): 12-22.
[13] 范馨月,崔雷. 基于网络属性的抗肿瘤药物靶点预测方法及其应用*[J]. 数据分析与知识发现, 2018, 2(12): 98-108.
[14] 赵杨,袁析妮,陈亚文,武立强. 基于机器学习混合算法的APP广告转化率预测研究*[J]. 数据分析与知识发现, 2018, 2(11): 2-9.
[15] 王欣,冯文刚. 在线极端主义和激进化监测技术综述*[J]. 数据分析与知识发现, 2018, 2(10): 2-8.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn