Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (3): 98-106     https://doi.org/10.11925/infotech.2096-3467.2017.1058
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
基于LDA主题模型的文献关联分析及可视化研究
王丽(), 邹丽雪, 刘细文
中国科学院文献情报中心 北京 100190
中国科学院大学 北京 100049
Visualizing Document Correlation Based on LDA Model
Wang Li(), Zou Lixue, Liu Xiwen
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF (4133 KB)   HTML ( 17
输出: BibTeX | EndNote (RIS)      
摘要 

目的】基于机器学习进行有效的科研主题发现与分析建模研究。【方法】以LDA主题模型为基础进行科研主题发现, 通过Python语言实现分析建模, 关联分析科研主题的年代、机构、基础研究与应用研发等信息, 对比披露了各年代、机构的研发重点及基础研究和应用研究的差异, 并对结果进行可视化。【结果】基于101 813条石墨烯领域的论文和专利数据进行实证分析, 结果表明通过建模进行12个主题的发现、关联分析及其可视化全流程可在很短时间(约2分钟)内完成, 通过机器学习的手段突破了传统分析工具以及数据分析体量的局限性, 提升了针对大量文本数据信息挖掘及分析的效率。【局限】尚未探讨主题间关联关系权重及主题演进等涉及复杂网络分析的内容。【结论】机器学习对情报分析有着无限可能, 需要基于实际需求开发更多有效的分析模型, 满足大文本分析和可视化。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王丽
邹丽雪
刘细文
关键词 LDA主题模型数据分析机器学习Python数据可视化    
Abstract

[Objective] This paper tries to construct data analysis model for the topics of scientific research based on machine learning. [Methods] First, we clustered data with the Latent Dirichlet Allocation model. Then, we investigated the correlation among year, institution and research types with the help of Python modules. Finally, we revealed and visualized the key research areas of every year or institution. [Results] We analyzed 101,813 papers and patents of graphene industray research. The proposed method finished the topic identification, correlation analysis, and visualization in about two miniutes. [Limitations] More research is needed to explore the network analysis issues. [Conclusions] Machine learning provides enormous potentiality for intelligence studies, especially the large volume text analytics and visualization.

Key wordsLDA Model    Data Analysis    Machine Learning    Python    Data Visualization
收稿日期: 2017-10-24      出版日期: 2018-04-03
ZTFLH:  TP393  
引用本文:   
王丽, 邹丽雪, 刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
Wang Li,Zou Lixue,Liu Xiwen. Visualizing Document Correlation Based on LDA Model. Data Analysis and Knowledge Discovery, 2018, 2(3): 98-106.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1058      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I3/98
  基于LDA模型的研究框架和流程(以CAS数据为例)
主题1 石墨烯建模仿真 主题2 石墨烯电化学性能 主题3 石墨烯FET器件 主题4 石墨烯反常霍尔效应
特征词 概率 特征词 概率 特征词 概率 特征词 概率
monolayers 0.040 surface structure 0.075 electric current-potential relationship 0.100 magnetic field effects 0.037
simulation and modeling 0.033 nanoparticles 0.073 electric conductivity 0.052 electric conductivity 0.030
multilayers 0.024 cyclic voltammetry 0.051 electric resistance 0.050 electron transport 0.027
electric field effects 0.022 nanocomposites 0.049 electric capacitance 0.043 nanoribbons 0.026
phonon 0.017 glassy carbon electrodes 0.033 electrodes 0.043 band structure 0.025
electric conductivity 0.016 Nano sheets 0.032 field effect transistors 0.038 fermi level 0.023
electric current carriers 0.015 electron transfer 0.022 double layer capacitors 0.035 quantum hall effect 0.020
optical transmission 0.014 electric impedance 0.021 raman spectra 0.034 landau level 0.018
semiconductor materials 0.014 x-ray diffraction 0.020 solar cells 0.023 magnetization 0.017
dielectric constant 0.013 ph 0.019 electric impedance 0.019 tight-binding method 0.015
主题5 石墨烯/
碳纳米管复合材料
主题6石墨烯生物相容性 主题7 氧化石墨烯 主题8 石墨烯高
分子复合材料
特征词 概率 特征词 概率 特征词 概率 特征词 概率
films 0.045 human 0.031 reduction 0.039 polyesters 0.035
chemical vapor deposition 0.036 electronic device fabrication 0.021 oxidation 0.036 carbon nanotubes 0.034
carbon nanotubes 0.034 surface treatment 0.016 adsorption 0.033 epoxy resins 0.022
annealing 0.026 homo sapiens 0.014 surface area 0.033 polysiloxanes 0.020
electric conductors 0.025 chemically modified electrodes 0.014 Nano sheets 0.017 polyimides 0.020
etching 0.020 ph 0.014 nanostructured materials 0.017 polyurethanes 0.019
metals 0.020 quantum dots 0.013 sonication 0.017 polyamides 0.018
coating process 0.020 stability 0.013 exfoliation 0.016 polyoxyalkylenes 0.015
electrodes 0.018 fluorescence 0.012 pore size distribution 0.016 polyethers 0.015
sheet resistance 0.018 nanoscale surface modification 0.012 pore size 0.015 coating materials 0.014
主题9 石墨烯
纳米带
主题10 石墨烯
复合材料的光学性
主题11 石墨烯
复合材料的力学性
主题12 石墨烯
储能电池
特征词 概率 特征词 概率 特征词 概率 特征词 概率
density of states 0.057 raman spectra 0.093 nanocomposites 0.049 secondary batteries 0.063
band gap 0.051 microstructure 0.044 thermal conductivity 0.031 carbon nanotubes 0.057
nanoribbons 0.044 x-ray photoelectron spectra 0.041 thermal stability 0.030 composites 0.053
density functional theory 0.043 nanoparticles 0.041 polymer morphology 0.028 fluoropolymers 0.047
band structure 0.036 nanocomposites 0.038 young's modulus 0.028 carbon black 0.035
electronic structure 0.035 surface structure 0.037 electric conductivity 0.024 battery anodes 0.034
binding energy 0.026 nanostructures 0.036 carbon nanotubes 0.020 lithium-ion secondary batteries 0.023
electron density 0.023 uv and visible spectra 0.032 tensile strength 0.020 heat treatment 0.020
fermi level 0.020 nanosheets 0.029 molecular dynamics simulation 0.020 battery cathodes 0.015
band structure 0.020 ir spectra 0.025 strain 0.017 carbon fibers 0.015
  石墨烯领域主题-特征词分布
  石墨烯领域主题分布
  石墨烯领域主题年代演进对比分析
  石墨烯领域12个主题的Top10机构分析
  石墨烯领域Top10机构的12个主题对比分析
  石墨烯领域研发对比分析
[1] Blei M D, Ng Y A, Jordan I M.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[2] Lee W S, Han E J, Sohn S Y.Predicting the Pattern of Technology Convergence Using Big-Data Technology on Large-Scale Triadic Patents[J]. Technological Forecasting & Social Change, 2015, 100: 317-329.
doi: 10.1016/j.techfore.2015.07.022
[3] 王博, 刘盛博, 丁堃, 等. 基于LDA 主题模型的专利内容分析方法[J]. 科研管理, 2015, 36(3):111-117.
[3] (Wang Bo, Liu Shengbo, Ding Kun, et al.Patent Content Analysis Method Based on LDA Topic Model[J]. Science Research Management, 2015, 36(3): 111-117.)
[4] 任智军, 乔晓东, 张江涛. 新兴技术发现模型研究[J]. 现代图书情报技术, 2016(8): 60-69.
[4] (Ren Zhijun, Qiao Xiaodong, Zhang Jiangtao.Discover Emerging Technologies with LDA Model[J]. New Technology of Library and Information Service, 2016(8): 60-69.)
[5] 杨超, 朱东华, 汪雪锋, 等. 专利技术主题分析: 基于SAO 结构的LDA 主题模型方法[J]. 图书情报工作, 2017, 61(3):86-96.
doi: 10.13266/j.issn.0252-3116.2017.03.012
[5] (Yang Chao, Zhu Donghua, Wang Xuefeng, et al.Technical Topic Analysis in Patents: SAO-based LDA Modeling[J]. Library and Information Service, 2017, 61(3): 86-96.)
doi: 10.13266/j.issn.0252-3116.2017.03.012
[6] Suominen A, Toivanen H, Seppänen M.Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning[J]. Technological Forecasting & Social Change, 2017, 115: 131-142.
doi: 10.1016/j.techfore.2016.09.028
[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[3] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[5] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[6] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[7] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[8] 柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[9] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[10] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[11] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[12] 王树义,刘赛,马峥. 基于深度迁移学习的微博图像隐私分类研究*[J]. 数据分析与知识发现, 2020, 4(10): 80-92.
[13] 潘虹,唐莉. 质性数据分析工具在中国社会科学研究的应用 ——以Nvivo为例*[J]. 数据分析与知识发现, 2020, 4(1): 51-62.
[14] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[15] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn