Advanced Search

数据分析与知识发现  2018 , 2 (3): 98-106 https://doi.org/10.11925/infotech.2096-3467.2017.1058

应用论文

基于LDA主题模型的文献关联分析及可视化研究

王丽, 邹丽雪, 刘细文

中国科学院文献情报中心 北京 100190
中国科学院大学 北京 100049

Visualizing Document Correlation Based on LDA Model

Wang Li, Zou Lixue, Liu Xiwen

National Science Library, Chinese Academy of Sciences, Beijing 100190, China
University of Chinese Academy of Sciences, Beijing 100049, China

中图分类号:  TP393

通讯作者:  通讯作者:王丽, ORCID: 0000-0002-9513-6159, E-mail: wangli@mail.las.ac.cn

收稿日期: 2017-10-24

修回日期:  2017-12-9

网络出版日期:  2018-03-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

展开

摘要

目的】基于机器学习进行有效的科研主题发现与分析建模研究。【方法】以LDA主题模型为基础进行科研主题发现, 通过Python语言实现分析建模, 关联分析科研主题的年代、机构、基础研究与应用研发等信息, 对比披露了各年代、机构的研发重点及基础研究和应用研究的差异, 并对结果进行可视化。【结果】基于101 813条石墨烯领域的论文和专利数据进行实证分析, 结果表明通过建模进行12个主题的发现、关联分析及其可视化全流程可在很短时间(约2分钟)内完成, 通过机器学习的手段突破了传统分析工具以及数据分析体量的局限性, 提升了针对大量文本数据信息挖掘及分析的效率。【局限】尚未探讨主题间关联关系权重及主题演进等涉及复杂网络分析的内容。【结论】机器学习对情报分析有着无限可能, 需要基于实际需求开发更多有效的分析模型, 满足大文本分析和可视化。

关键词: LDA主题模型 ; 数据分析 ; 机器学习 ; Python ; 数据可视化

Abstract

[Objective] This paper tries to construct data analysis model for the topics of scientific research based on machine learning. [Methods] First, we clustered data with the Latent Dirichlet Allocation model. Then, we investigated the correlation among year, institution and research types with the help of Python modules. Finally, we revealed and visualized the key research areas of every year or institution. [Results] We analyzed 101,813 papers and patents of graphene industray research. The proposed method finished the topic identification, correlation analysis, and visualization in about two miniutes. [Limitations] More research is needed to explore the network analysis issues. [Conclusions] Machine learning provides enormous potentiality for intelligence studies, especially the large volume text analytics and visualization.

Keywords: LDA Model ; Data Analysis ; Machine Learning ; Python ; Data Visualization

0

PDF (4133KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

王丽, 邹丽雪, 刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106 https://doi.org/10.11925/infotech.2096-3467.2017.1058

Wang Li, Zou Lixue, Liu Xiwen. Visualizing Document Correlation Based on LDA Model[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 98-106 https://doi.org/10.11925/infotech.2096-3467.2017.1058

1 引 言

数字科研、数字教育和数字信息网络正在全面改变着传统信息服务模式, 文献情报服务正处于颠覆性变革阶段, 大数据情报分析和知识服务时代已经来临。基于数据科学和计算科学的数据处理和分析方法为情报分析及信息服务带来新的契机。

以往的情报分析大多基于现成工具进行数据处理、分析以及可视化, 导致情报分析受限于工具的预设功能和数据处理能力, 对于分析人员的信息挖掘和表达形成了客观的局限性。近年来随着科研成果数字化, 论文和专利数据作为文献情报分析的主体急剧增加, 现有工具的处理能力已经无法承载产业级数据的分析, 急需探索针对大文本数据分析的新方法和新途径。深度信息发现是通过挖掘和比较不同层次的关联关系实现的, 现有分析工具可以满足常规的分析需求, 然而自定义和多维度的分析往往受限于其通用性。针对上述问题, 本文以石墨烯产业为例探索大数据文本分析方法, 以LDA (Latent Dirichlet Allocation)主题模型为基础挖掘石墨烯产业研发热点方向, 并建立机构、年代、类型等关联分析及可视化模型。

机器学习中的无监督学习主要依赖于统计模型, 主题模型则属于无监督学习。LDA主题模型是一种无监督机器学习算法, 以词、主题和文档三层贝叶斯概率为核心结构发现文本隐含模式。LDA通过使用联合概率分布计算给定观测变量值下的隐含变量的条件分布, 核心部分如公式(1)[1]所示。

$p(w\left| \theta \right.)=\sum\nolimits_{z=1}^{k}{p(w\left| z)p(z\left| \theta ) \right. \right.}$ (1)

其中, w表示词, $\left| V \right|$表示所有词的个数; z表示主题, k表示隐含主题个数; W =$\left\langle {{w}_{1}},\cdots ,{{w}_{N}} \right\rangle $表示文档, 一个文档有N个词; $\theta $是主题向量, 向量的每一列表示每个主题在文档出现的概率, 即${{\theta }_{i}}$揭示文档属于主题i的可能性, 该向量为非负归一化向量(${{\theta }_{i}}\ge 0,\sum\limits_{i}{{{\theta }_{i}}}=1$), p($\theta $)服从Dirichlet分布; $p(w\left| z \right.)$表示给定zw的分布, 是一个$k\times \left| V \right|$矩阵, 每行表示这个主题对应单词的概率分布; $p(z\left| \theta \right.)$表示给定$\theta $时主题z的概率分布; $p(w\left| \theta \right.)$表示给定$\theta $时词w的概率分布。从文档推断隐含主题结构是一种计算后验分布的计算, 公式(1)中, w为给定观测变量, $\theta $和z为隐藏变量, LDA后验分布计算在给定观测文档下计算隐含变量的条件分布。

LDA 主题模型被广泛应用于文本挖掘领域, 如文本主题识别、文本分类以及文本相似度计算等方面。Lee等[2]基于专利数据在IPC共现分析基础上利用LDA模型发现新兴技术主题; 王博等[3]基于专利数据利用LDA模型实现专利主题和机构之间的关联分析, 但未进行可视化研究; 任智军等[4]基于LDA模型研究新兴技术识别方法, 对论文和专利数据进行整合, 基于LDA模型获取技术主题, 并未对可视化进行过多研究; 杨超等[5]对基于SAO结构的LDA 模型方法进行研究, 致力于构建SAO语义模型与LDA统计模型相结合的专利技术主题分析方法, 并未对可视化和关联分析有过多探讨; Suominen等[6]基于专利数据通过LAD模型对企业研发方向进行分析和预测, 并基于Gephi进行主题可视化, 未进行专利和论文整合数据的对比研究。

2 研究思路与框架

本文利用美国化学文摘社(Chemical Abstracts Service, CAS)提供的石墨烯的相关论文及专利文献, 截至2016年4月5日, 共获取到78 756篇论文, 23 057项专利。原始文件为XML格式, 为了便于后续分析, 人工解析提取有效分析字段, 并将其转换为常用的CSV格式文件。开发数据解析工具将原始数据处理为结构化数据, 对作者、机构进行归一化处理, 保证后续分析结果的准确性。

论文数据和专利数据从结构、长度、语言的表达习惯都存在很大差异, 在进行混合数据分析时, 寻找等质等量语料结构用于主题模型建模是关键。CAS对出版物共同标引, 如主题标引、概念标引、物质标引等, 为本研究进行专利和论文混合数据分析提供很大便利。选取CAS的主题标引将单篇文档转换为多个主题词所构成的集合, 用于主题模型建模分析。

采用Gibbs采样进行LDA建模, 形成两个矩阵, 即文档-主题概率矩阵和特征词-主题概率矩阵, 基于上述两个矩阵通过Python建立分析模型, 展开后续的关联分析, 如主题年代演进对比分析、机构的研究主题对比分析、主题研发对比分析等。

基于词-主题概率矩阵通过Python建模实现LDA主题聚类的可视化, 在进行关联分析的同时实现可视化表达。研究框架和分析流程如图1所示。

图1   基于LDA模型的研究框架和流程(以CAS数据为例)

   

3 LDA主题模型分析及可视化

对数据进行预处理, 整合论文和专利数据, 提取文献号、年代、机构、主题词、物质、功能等特征字段, 形成分析数据。基于LDA主题模型, 对101 813条专利和论文混合数据进行主题聚类, 由于后续涉及聚类主题的人工判读, 实验阶段分析颗粒度为主题大类划分, 因此参数设置为12-20个主题, α= 4.1, β=0.01, 进行1000次迭代。经过对主题之间的交叉判读, 最终参数选定为12个主题, 每类主题Top10的特征词及其概率分布如表1所示。

表1   石墨烯领域主题-特征词分布

   

主题1 石墨烯建模仿真主题2 石墨烯电化学性能主题3 石墨烯FET器件主题4 石墨烯反常霍尔效应
特征词概率特征词概率特征词概率特征词概率
monolayers0.040surface structure0.075electric current-potential relationship0.100magnetic field effects0.037
simulation and modeling0.033nanoparticles0.073electric conductivity0.052electric conductivity0.030
multilayers0.024cyclic voltammetry0.051electric resistance0.050electron transport0.027
electric field effects0.022nanocomposites0.049electric capacitance0.043nanoribbons0.026
phonon0.017glassy carbon electrodes0.033electrodes0.043band structure0.025
electric conductivity0.016Nano sheets0.032field effect transistors0.038fermi level0.023
electric current carriers0.015electron transfer0.022double layer capacitors0.035quantum hall effect0.020
optical transmission0.014electric impedance0.021raman spectra0.034landau level0.018
semiconductor materials0.014x-ray diffraction0.020solar cells0.023magnetization0.017
dielectric constant0.013ph0.019electric impedance0.019tight-binding method0.015
主题5 石墨烯/
碳纳米管复合材料
主题6石墨烯生物相容性主题7 氧化石墨烯主题8 石墨烯高
分子复合材料
特征词概率特征词概率特征词概率特征词概率
films0.045human0.031reduction0.039polyesters0.035
chemical vapor deposition0.036electronic device fabrication0.021oxidation0.036carbon nanotubes0.034
carbon nanotubes0.034surface treatment0.016adsorption0.033epoxy resins0.022
annealing0.026homo sapiens0.014surface area0.033polysiloxanes0.020
electric conductors0.025chemically modified electrodes0.014Nano sheets0.017polyimides0.020
etching0.020ph0.014nanostructured materials0.017polyurethanes0.019
metals0.020quantum dots0.013sonication0.017polyamides0.018
coating process0.020stability0.013exfoliation0.016polyoxyalkylenes0.015
electrodes0.018fluorescence0.012pore size distribution0.016polyethers0.015
sheet resistance0.018nanoscale surface modification0.012pore size0.015coating materials0.014
主题9 石墨烯
纳米带
主题10 石墨烯
复合材料的光学性
主题11 石墨烯
复合材料的力学性
主题12 石墨烯
储能电池
特征词概率特征词概率特征词概率特征词概率
density of states0.057raman spectra0.093nanocomposites0.049secondary batteries0.063
band gap0.051microstructure0.044thermal conductivity0.031carbon nanotubes0.057
nanoribbons0.044x-ray photoelectron spectra0.041thermal stability0.030composites0.053
density functional theory0.043nanoparticles0.041polymer morphology0.028fluoropolymers0.047
band structure0.036nanocomposites0.038young's modulus0.028carbon black0.035
electronic structure0.035surface structure0.037electric conductivity0.024battery anodes0.034
binding energy0.026nanostructures0.036carbon nanotubes0.020lithium-ion secondary batteries0.023
electron density0.023uv and visible spectra0.032tensile strength0.020heat treatment0.020
fermi level0.020nanosheets0.029molecular dynamics simulation0.020battery cathodes0.015
band structure0.020ir spectra0.025strain0.017carbon fibers0.015

新窗口打开

基于LDA主题模型分析得到12个主题, 通过分析出现频次较高的主题特征词对各主题进行解读标识。将每个文档根据文档-主题概率进行主题归类处理, 为后续的建模关联分析奠定基础, 即时间-主题模型的主题年代演进对比分析、机构-主题模型的机构研究主题对比分析、类型-主题-时间模型的主题研发对比分析等。

根据LDA主题模型分析形成的特征词-主题概率, 进行特征词相似度计算, 由于以主题概率作为特征词向量, 本研究采用余弦相似度算法计算特征词的空间距离, 如公式(2)所示。

D = 1- cosine_similarity(wi, wj) = 1-$\frac{{{w}_{i}}\cdot {{w}_{j\text{ }}}}{\left\| {{w}_{ij}} \right\|\left\| {{w}_{j\text{ }}} \right\|}$ (2)

其中, D是特征词的空间距离, wi, wj分别代表主题概率向量。

通过多维缩放(MultiDimensional Scaling, MDS)对空间距离进行降维处理的同时保留数据空间距离的差异性, 利用Python的Matplotlib绘图工具包建模实现基于LDA主题模型聚类的可视化。由于聚类可视化显示了各个点所代表的特征词, 为了视觉辨析性选择特征词概率0.0035作为显示阈值, 结果如图2所示。

图2   石墨烯领域主题分布

   

4 关联分析及可视化

基于LDA主题模型进行大体量文本数据的主题发现和关联分析以及结果可视化将涉及到大量的计算。本研究基于Python的Numpy、Pandas等工具包进行分析建模, 并利用Matplotlib绘图工具包建模实现分析结果的可视化, 解决绘图标签中文显示乱码的问题。通过反复优化和测试, 最终从101 813条数据的读取、12个隐含主题的发现及可视化到本研究涉及的关联分析及可视化, 整个流程所需时间约2分钟左右, 提高了执行速度且节省了内存空间。

4.1 时间-主题模型

基于LDA主题模型构建时间-主题模型, 通过分组循环计算各个主题领域的各年代文档数量, 实现主题年代演进对比分析及可视化, 如图3所示。

图3   石墨烯领域主题年代演进对比分析

   

根据本次聚类结果对石墨烯领域各主题年代演进对比分析发现: 第一个主题“石墨烯建模仿真”在近年的研发产出激增; 第二个主题“石墨烯电化学性能”的研究持续增长但增速减缓; 第三个主题“石墨烯FET器件”的研究在2014年-2015年有所波动; 第4个主题“石墨烯反常霍尔效应”和第5个主题“石墨烯/碳纳米管复合材料”的研究产出下浮较大。

4.2 机构-主题模型

基于LDA主题模型构建机构-主题模型, 进行12个主题的Top10机构分析及可视化, 如图4所示。机构-主题模型建立的基本思路是通过分组循环计算各个主题领域的研究机构并进行降序处理和提取, 实现主题机构分析; 主要机构的研究主题对比分析则首先对石墨烯领域的主要机构进行提取, 然后循环计算各个主题领域的研究机构, 最后和主要机构进行融合计算, 从而实现主要机构的研究主题对比分析。

图4   石墨烯领域12个主题的Top10机构分析

   

根据聚类结果对石墨烯领域各主题的Top10机构分析发现: 除第4主题“石墨烯反常霍尔效应”外, 中国科学院在各主题的研究产出均位列第一。各主题的研究机构以科研单位和大学为主。此外, 第5主题“石墨烯/碳纳米管复合材料”和第8主题“石墨烯高分子复合材料”的Top10机构出现公司, 可见石墨烯/碳纳米管复合材料、石墨烯/高分子复合材料方面的研究受到企业的关注。当然, 由于论文数量远超专利数量, 在本次混合数据分析中以申请专利为主的公司其排名难免靠后。

根据聚类结果对石墨烯领域Top10机构的12个主题进行对比分析, 如图5所示。分析发现各机构研发各有偏重: 中国科学院在“石墨烯建模仿真”、“石墨烯/碳纳米管复合材料”研究产出突出, 在“石墨烯反常霍尔效应”及“石墨烯纳米带”方面的研究产出相对较少; 美国加州大学在“石墨烯建模仿真”、“石墨烯反常霍尔效应”及“石墨烯FET器件”方面的研究产出较多; 清华大学在“石墨烯FET器件”方面研究产出相对突出; 新加坡南洋理工大学在“石墨烯建模仿真”、“石墨烯电化学性能”及“石墨烯FET器件”方面研究产出较多; 浙江大学的产出主要集中在“石墨烯建模仿真”和“石墨烯储能电池”方面; 南京大学、俄罗斯科学院、美国德州大学、中国科技大学除了在“石墨烯建模仿真”方向产出较多, 皆在“石墨烯反常霍尔效应”方向研究产出较多; 北京大学在“石墨烯建模仿真”、“石墨烯FET器件”及“石墨烯/碳纳米管复合材料”方面研究产出相对较多。

图5   石墨烯领域Top10机构的12个主题对比分析

   

4.3 类型-主题-时间模型

基于LDA主题模型构建类型-主题-时间模型, 进行主题基础研究和技术研发对比分析并可视化, 如图6所示。首先对文档进行专利和论文两个类别的分类处理, 然后循环计算每个主题下各年代的文档数量, 最后分类计算并融合各年代不同类别的文档数量。

图6   石墨烯领域研发对比分析

   

对石墨烯领域基础研究和应用研发进行对比分析发现: 第5主题“石墨烯/碳纳米管复合材料”和第12主题“石墨烯储能电池”的专利产出量居论文产出量之上但差距较小, 可见在这两个方面的相关研究已经从基础研究迈向应用研发, 同时基础研究持续跟进以待突破。第8主题“石墨烯高分子复合材料”的专利产出量高于论文产出, 与石墨烯作为添加剂广泛应用的现状相符。第7主题“氧化石墨烯”尽管论文产出量高于专利, 专利产出仍然可观, 可见氧化石墨烯也有一定的应用市场, 但研究上也待进一步突破。第4主题“石墨烯反常霍尔效应”、第9主题“石墨烯纳米带”、第10主题“石墨烯复合材料的光学性”以及第11主题“石墨烯复合材料的力学性”等方面的研究目前还是以基础研究为主。第3主题“石墨烯FET器件”和第6主题“石墨烯生物相容性”等方面的研究以基础研究为主, 应用研发逐步跟进, 正如基于石墨烯的集成电路与半导体器件将给现有的半导体工业注入新的活力; 石墨烯生物传感器用于生物检测、生理监测、疾病诊断、环境及食品检测等领域的应用潜力逐步增强。

5 结 语

使用机器学习建模分析, 可以摆脱分析工具在处理体量及分析模型上的局限, 根据分析目的选取最优算法进行模型的改进和拓展, 同时可根据所要表达的信息进行可视化而不限制思维。采用LDA主题模型对专利和论文混合数据进行聚类分析及可视化, 基于此优化算法建立时间-主题、机构-主题、类型-主题-时间模型, 并进行关联分析及可视化。通过CAS提供的石墨烯相关论文及专利文献数据进行模型应用和检验, 由于LDA模型的概率采样每次重新生成主题的结果不尽相同, 但在对石墨烯12个主题的多次重复生成过程中发现, “石墨烯建模仿真”、“石墨烯FET器件”、“石墨烯反常霍尔效应”、“石墨烯生物相容性”、“氧化石墨烯”、“石墨烯高分子复合材料”、“石墨烯/碳纳米管复合材料”、“石墨烯储能电池”、“石墨烯复合材料力学性”等主题较为稳定。

尽管实证数据为CAS提供的数据, 但由于LDA模型是统计模型, 因此本文构建的分析模型可适用于其他类型数据。值得注意的是, 专利论文混合类型数据需要对分析语料进行预处理, 保证混合数据语料表达形式及数据宽度的一致性。如采用Derwent加工后专利摘要和任意数据库论文摘要的混合数据作为语料, 可直接采用本文的分析模型, 但是如果是专利原始文件和论文的混合数据, 由于专利与论文的表达形式差异需要进行语料预处理。未来将继续探索其他模型方法改进混合数据语料预处理模块, 同时针对分析结果探索最优的可视化模型也是未来的研究方向。

作者贡献声明

王丽: 提出研究思路, 设计研究方案, 模型建立, 代码实现, 撰写及修改论文;

邹丽雪: 数据清洗, 论文修改;

刘细文: 提出研究思路。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: wangli@mail.las.ac.cn。

[1] 王丽, 邹丽雪. graphene.xml. 美国化学文摘提供的石墨烯原始数据.

[2] 王丽, 邹丽雪. graphene.csv. 提炼后的石墨烯分析数据.

[3] 王丽. graphene .ipynb. 石墨烯分析模型代码.


参考文献

[1] Blei M D, Ng Y A, Jordan I M.

Latent Dirichlet Allocation

[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[本文引用: 1]     

[2] Lee W S, Han E J, Sohn S Y.

Predicting the Pattern of Technology Convergence Using Big-Data Technology on Large-Scale Triadic Patents

[J]. Technological Forecasting & Social Change, 2015, 100: 317-329.

https://doi.org/10.1016/j.techfore.2015.07.022      URL      [本文引用: 1]      摘要

61Entire triadic patents are analyzed using open-source big data technology.61Potential future convergences among technologies are predicted by using Adamic/Adar similarity between IPC codes.61With LDA, we found that peptides, viruses, proteins, and DNA constitute topics where convergences were predicted.
[3] 王博, 刘盛博, 丁堃, .

基于LDA 主题模型的专利内容分析方法

[J]. 科研管理, 2015, 36(3):111-117.

URL      [本文引用: 1]      摘要

主题模型是一种有效提取大规模文本隐含主题的建模方法.本文将Latent Dirichlet Allocation (LDA)主题模型引入专利内容分析领域,实现专利主题划分,解决以往专利主题分类过于粗泛、时效性差、缺乏科学性等问题.并在原有模型基础上构建LDA机构-主题模型,对专利知识主体和客体联合建模,实现专利主题和机构之间内在关系分析.最后,以通信产业LTE技术领域为例,验证该模型可以有效用于专利主题划分,实现各主题下专利知识主体竞争态势测度.

(Wang Bo, Liu Shengbo, Ding Kun, et al.

Patent Content Analysis Method Based on LDA Topic Model

[J]. Science Research Management, 2015, 36(3): 111-117.)

URL      [本文引用: 1]      摘要

主题模型是一种有效提取大规模文本隐含主题的建模方法.本文将Latent Dirichlet Allocation (LDA)主题模型引入专利内容分析领域,实现专利主题划分,解决以往专利主题分类过于粗泛、时效性差、缺乏科学性等问题.并在原有模型基础上构建LDA机构-主题模型,对专利知识主体和客体联合建模,实现专利主题和机构之间内在关系分析.最后,以通信产业LTE技术领域为例,验证该模型可以有效用于专利主题划分,实现各主题下专利知识主体竞争态势测度.
[4] 任智军, 乔晓东, 张江涛.

新兴技术发现模型研究

[J]. 现代图书情报技术, 2016(8): 60-69.

[本文引用: 1]     

(Ren Zhijun, Qiao Xiaodong, Zhang Jiangtao.

Discover Emerging Technologies with LDA Model

[J]. New Technology of Library and Information Service, 2016(8): 60-69.)

[本文引用: 1]     

[5] 杨超, 朱东华, 汪雪锋, .

专利技术主题分析: 基于SAO 结构的LDA 主题模型方法

[J]. 图书情报工作, 2017, 61(3):86-96.

https://doi.org/10.13266/j.issn.0252-3116.2017.03.012      URL      [本文引用: 1]      摘要

[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的“问题”与相应“解决方案”等问题.[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别“问题和解决方案”(P&S)模式,基于“bag of P&S”假设,构建基于“主语-行为-宾语”(subject-action-ob-ject,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析.[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势.

(Yang Chao, Zhu Donghua, Wang Xuefeng, et al.

Technical Topic Analysis in Patents: SAO-based LDA Modeling

[J]. Library and Information Service, 2017, 61(3): 86-96.)

https://doi.org/10.13266/j.issn.0252-3116.2017.03.012      URL      [本文引用: 1]      摘要

[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的“问题”与相应“解决方案”等问题.[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别“问题和解决方案”(P&S)模式,基于“bag of P&S”假设,构建基于“主语-行为-宾语”(subject-action-ob-ject,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析.[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势.
[6] Suominen A, Toivanen H, Seppänen M.

Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning

[J]. Technological Forecasting & Social Change, 2017, 115: 131-142.

https://doi.org/10.1016/j.techfore.2016.09.028      URL      [本文引用: 1]      摘要

Patent data has been an obvious choice for analysis leading to strategic technology intelligence, yet, the recent proliferation of machine learning text analysis methods is changing the status of traditional patent data analysis methods and approaches. This article discusses the benefits and constraints of machine learning approaches in industry level patent analysis, and to this end offers a demonstration of unsupervised learning based analysis of the leading telecommunication firms between 2001 and 2014 based on about 160,000 USPTO full-text patents. Data were classified using full-text descriptions with Latent Dirichlet Allocation, and latent patterns emerging through the unsupervised learning process were modelled by company and year to create an overall view of patenting within the industry, and to forecast future trends. Our results demonstrate company-specific differences in their knowledge profiles, as well as show the evolution of the knowledge profiles of industry leaders from hardware to software focussed technology strategies. The results cast also light on the dynamics of emerging and declining knowledge areas in the telecommunication industry. Our results prompt a consideration of the current status of established approaches to patent landscaping, such as key-word or technology classifications and other approaches relying on semantic labelling, in the context of novel machine learning approaches. Finally, we discuss implications for policy makers, and, in particular, for strategic management in firms.
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/