Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (2/3): 18-32     https://doi.org/10.11925/infotech.2096-3467.2021.0908
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于双层主题模型的技术演化分析框架及其应用*
吕璐成1,2,周健3,王学昭1,2,刘细文1,2()
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3中国科学院计算技术研究所 北京 100094
Technology Evolution Analysis Framework Based on Two-Layer Topic Model and Application
Lv Lucheng1,2,Zhou Jian3,Wang Xuezhao1,2,Liu Xiwen1,2()
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academic of Sciences, Beijing 100190, China
3Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100094, China
全文: PDF (1909 KB)   HTML ( 27
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 针对开展技术演化分析时依赖主题间相似度计算和人工设定阈值判断窗口技术主题间关联关系的问题,进行方法研究。【方法】 构建基于双层主题模型的技术主题演化分析框架。分别采用基于LDA和基于NMF的双层主题模型识别动态主题,通过主题内一致性和差异度指标评价两种方法的技术主题识别效果,对比选定最优方法,从主题成长性和重要性方面进行技术主题演化分析。【结果】 通过在资源环境领域的应用研究发现,基于NMF的双层主题模型识别的动态主题具有更高的主题内语义一致性和主题间语义差异度,技术演化分析结果能够从《麻省理工科技评论》发布的突破性技术清单中得到验证。【局限】 仅研究了技术从出现到消亡的发展轨迹,未关注技术的分裂、衍生和融合。【结论】 所提方法能够利用特定时间段的文献数据,自动识别动态主题并对主题的演化轨迹进行分析,在科技情报分析工作中具有实际应用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吕璐成
周健
王学昭
刘细文
关键词 技术演化分析主题模型科技文献挖掘NMF资源环境领域    
Abstract

[Objective] This paper constructs a new analysis framework for technology evolution, aiming to address the problems of the topic similarity calculation and manually setting the threshold to judge the correlation between window technology topics. [Methods] We established the new framework based on two layer topic model, which identified the dynamic topics using the LDA and NMF. Then, we evaluated the technical topic identification effects with the indicators of inner consistency and outer difference of the topics. Finally, we analyzed the evolution of technical topics from the perspectives of topic growth and importance. [Results] We examined our new method with data from the field of resources and environment. The two layer topic model based on NMF is more effective in dynamic topic recognition, and the analysis results of technology evolution can be verified from the list of breakthrough technologies released by MIT Technology Review. [Limitations] This paper only studies the development of technology from emergence to extinction, and does not examine the division, derivation and integration of technology. [Conclusions] The proposed method can automatically identify dynamic topics and analyze their evolution tracks using the literature. It has application value in scientific and technological information analysis.

Key wordsTechnology Evolution Analysis    Topic Model    S&T Literature Mining    NMF    Resource and Environment Field
收稿日期: 2021-08-25      出版日期: 2022-04-14
ZTFLH:  G254  
基金资助:*中国科学院战略研究专项的研究成果之一(GHJ-ZLZX-2020-31-3)
通讯作者: 刘细文,ORCID:0000-0003-0820-3622     E-mail: liuxw@mail.las.ac.cn
引用本文:   
吕璐成, 周健, 王学昭, 刘细文. 基于双层主题模型的技术演化分析框架及其应用*[J]. 数据分析与知识发现, 2022, 6(2/3): 18-32.
Lv Lucheng, Zhou Jian, Wang Xuezhao, Liu Xiwen. Technology Evolution Analysis Framework Based on Two-Layer Topic Model and Application. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 18-32.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0908      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I2/3/18
Fig.1  方法总体框架
Fig.2  双层主题模型框架[7]
符号 意义
T 总时刻
D i i个时刻的文档集合
V 所有时刻的文档集合的词项集合
d 单篇文档
w 单个词项
k i i个时刻的文档集的主题个数
A i i个时刻的文档集合的文档-词项矩阵, A i R D i × V i
W i i个时刻的由主题模型得到的文档集合的文档-主题矩阵, W i R D i × k i
H i i个时刻的由主题模型得到的文档集合的主题-词项矩阵, H i R k i × V i
k ' 第二层主题模型的动态主题个数
A ' 由所有 H i i 1 , T)合并得到的矩阵, A ' R i = 1 T k i × V
W ' A '作为主题模型的输入得到的文档-主题矩阵, W ' R i = 1 T k i × k '
H ' A '作为主题模型的输入得到的主题-词项矩阵, H ' R k ' × V
Table 1  双层主题模型中的符号定义
Fig.3  动态主题在各个时间窗口的权重计算示意图
年份 论文数量
2010 959
2011 1 078
2012 1 103
2013 1 173
2014 1 260
2015 1 268
2016 1 391
2017 1 504
2018 1 703
2019 2 166
2020 1 580
Table 2  论文数据分布
Fig.4  基于TL-NMF计算的各时间窗口的最优主题个数
Fig.5  基于TL-LDA计算的各时间窗口的最优主题个数
Fig.6  在各时间窗口取最优主题数的条件下,TL-NMF和TL-LDA识别的主题一致性平均值
Fig.7  基于TL-NMF和TL-LDA的动态主题识别层的最优主题个数
模型 主题一致性 InnerSim 主题差异度 OuterDif f W 2 V 主题差异度 OuterDif f JCD
TL-NMF 0.366 9 0.806 9 0.986 7
TL-LDA 0.351 3 0.714 5 0.992 8
Table 3  模型效果对比
Top5 t 0 t 7 t 10 t 27 t 35 t 49
1 Climate Lithium GIS Network COVID Microalgae
2 Change Ion Batteries Support Vector Machine Prediction Coronavirus Biodiesel
3 Impacts Li Spatial Prediction Artificial Neural SARS Algae
4 Temperature Capacity Regression Algorithm COV Biodiesel Production
5 Climate Change Storage Logistic ANN Pandemic Biofuels
Table 4  基于TL-NMF的动态技术主题识别示例
Top5 t 0 t 5 t 17 t 26 t 32 t 41
1 Membrane Bioreactor Trend Analysis Model COVID Membrane Fouling Hydraulic Fracture
2 Temporal Microgrids Water Holocene Aerobic Granular Sludge Neural Network
3 Flower Pollination Algorithm Monitor Climate Ecological Footprint Biosynthesis Electricity Market
4 Nanoscale Zero Water Management Carbon Mediterranean Density Functional Theory Transfer Learning
5 Artificial Bee Colony Statistics Temperature Soil Erosion Hydrogen Generation Surface Mass
Table 5  基于TL-LDA的动态技术主题识别示例
Fig.8  成长性排名Top3的动态技术主题演化分析
Fig.9  重要性排名Top3的动态技术主题演化分析
Fig.10  50个主题的成长性和重要性分布
[1] 吕璐成, 罗文馨, 许景龙, 等. 专利情报方法、工具、应用研究进展及新技术应用趋势[A]// 情报学进展[M]. 2020, 13:235-278.
[1] ( Lv Lucheng, Luo Wenxin, Xu Jinglong, et al. Patent Information Analysis Methods, Tools, Application Research Progress and Application Trend of New Technology[A]// Advances in Information Science[M]. 2020, 13:235-278.)
[2] 胡阿沛, 张静, 张晓宇. 基于专利文献的技术演化分析方法评述[J]. 现代情报, 2013, 33(10):172-176.
[2] ( Hu Apei, Zhang Jing, Zhang Xiaoyu. A Review on the Method of Analyzing Technological Evolution Based on Patent Documents[J]. Journal of Modern Information, 2013, 33(10):172-176.)
[3] 李晓曼. 基于专利要素特征的技术演化分析[D]. 北京: 中国农业科学院, 2020.
[3] ( Li Xiaoman. Technology Evolution Analysis Based on Patent Elements Features[D]. Beijing: Chinese Academy of Agricultural Sciences, 2020.)
[4] 刘自强, 王效岳, 白如江. 多维度视角下学科主题演化可视化分析方法研究: 以我国图书情报领域大数据研究为例[J]. 中国图书馆学报, 2016, 42(6):67-84.
[4] ( Liu Ziqiang, Wang Xiaoyue, Bai Rujiang. Research on Visualization Analysis Method of Discipline Topics Evolution from the Perspective of Multi-Dimensions: A Case Study of the Big Data in the Field of Library and Information Science in China[J]. Journal of Library Science in China, 2016, 42(6):67-84.)
[5] 陈亮, 杨冠灿, 张静, 等. 面向技术演化分析的多主路径方法研究[J]. 图书情报工作, 2015, 59(10):124-130, 115.
[5] ( Chen Liang, Yang Guancan, Zhang Jing, et al. Research on Multiple Main Paths Method Oriented to Analysis of Technological Evolution[J]. Library and Information Service, 2015, 59(10):124-130, 115.)
[6] 陈亮, 张静, 杨冠灿, 等. 基于专利文本的闭频繁项集在技术演化分析中的应用[J]. 图书情报工作, 2016, 60(6):70-76.
[6] ( Chen Liang, Zhang Jing, Yang Guancan, et al. The Application of Closed Frequent Itemsets on Patent Text for Technological Evolution Analysis[J]. Library and Information Service, 2016, 60(6):70-76.)
[7] Greene D, Cross J P. Exploring the Political Agenda of the European Parliament Using a Dynamic Topic Modeling Approach[J]. Political Analysis, 2017, 25(1):77-94.
doi: 10.1017/pan.2016.7
[8] 方曙, 胡正银, 庞弘燊, 等. 基于专利文献的技术演化分析方法研究[J]. 图书情报工作, 2011, 55(22):42-46.
[8] ( Fang Shu, Hu Zhengyin, Pang Hongshen, et al. Study on the Method of Analyzing Technology Evolution Based on Patent Documents[J]. Library and Information Service, 2011, 55(22):42-46.)
[9] 张娴, 方曙, 王春华. 专利引证视角下的技术演化研究综述[J]. 科学学与科学技术管理, 2016, 37(3):58-67.
[9] ( Zhang Xian, Fang Shu, Wang Chunhua. Review on Technology Evolution Research from Patent Citation Perspective[J]. Science of Science and Management of S.&T., 2016, 37(3):58-67.)
[10] 李蕾, 宋俭宁, 宋天华. 基于创新网络社区主题发现和S曲线的技术预测[J]. 农业图书情报学报, 2021, 33(4):45-57.
[10] ( Li Lei, Song Jianning, Song Tianhua. Technology Forecasting Based on Topic Identification of Online Innovation Communities and S-Curve[J]. Journal of Library and Information Science in Agriculture, 2021, 33(4):45-57.)
[11] 黄颖. 基于专利文献的技术演化路径识别方法研究[D]. 北京: 北京理工大学, 2018.
[11] ( Huang Ying. Research on Tracing Technological Evolution Pathways Based on Patent Documents[D]. Beijing: Beijing Institute of Technology 2018.)
[12] 郑晓月, 牟冬梅, 琚沅红, 等. 学科知识结构主题演化模式研究: 以图书情报学领域“计量学”主题为例[J]. 图书情报工作, 2017, 61(12):32-41.
[12] ( Zheng Xiaoyue, Mu Dongmei, Ju Yuanhong, et al. Research on the Three Theme Evolution Patterns of Discipline Knowledge Structure: A Case Study of the “Metrology” Theme in the Field of Library and Information Science[J]. Library and Information Service, 2017, 61(12):32-41.)
[13] 巴志超, 杨子江, 朱世伟, 等. 基于关键词语义网络的领域主题演化分析方法研究[J]. 情报理论与实践, 2016, 39(3):67-72.
[13] ( Ba Zhichao, Yang Zijiang, Zhu Shiwei, et al. Research on the Domain Theme Evolution Analysis Based on Keywords Semantic Network[J]. Information Studies: Theory & Application, 2016, 39(3):67-72.)
[14] 王康, 陈悦, 苏成, 等. 多维视角下科学主题演化分析框架[J]. 情报学报, 2021, 40(0):297-307.
[14] ( Wang Kang, Chen Yue, Su Cheng, et al. Analysis Framework for the Evolution of Scientific Themes from a Multi-Dimensional Perspective[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(3):297-307.)
[15] 杨超, 朱东华, 汪雪锋. 专利技术主题分析: 基于SAO结构的LDA主题模型方法[J]. 图书情报工作, 2017, 61(3):86-96.
[15] ( Yang Chao, Zhu Donghua, Wang Xuefeng. Technical Topic Analysis in Patents: SAO-Based LDA Modeling[J]. Library and Information Service, 2017, 61(3):86-96.)
[16] 廖列法, 勒孚刚. 基于LDA模型和分类号的专利技术演化研究[J]. 现代情报, 2017, 37(5):13-18.
[16] ( Liao Liefa, Le Fugang. Research on Patent Technology Evolution Based on LDA Model and Classification Number[J]. Journal of Modern Information, 2017, 37(5):13-18.)
[17] 陈亮, 张静, 张海超, 等. 层次主题模型在技术演化分析上的应用研究[J]. 图书情报工作, 2017, 61(5):103-108.
[17] ( Chen Liang, Zhang Jing, Zhang Haichao, et al. Application of Hierarchical Topic Model on Technological Evolution Analysis[J]. Library and Information Service, 2017, 61(5):103-108.)
[18] 吴菲菲, 张亚茹, 黄鲁成, 等. 基于AToT模型的技术主题多维动态演化分析: 以石墨烯技术为例[J]. 图书情报工作, 2017, 61(5):95-102.
[18] ( Wu Feifei, Zhang Yaru, Huang Lucheng, et al. Multi-dimension Dynamic Evolution Analysis of Technology Topics Based on AToT by Taking Grapheme Technology as an Example[J]. Library and Information Service, 2017, 61(5):95-102.)
[19] 吴红, 伊惠芳, 马永新, 等. 面向专利技术主题分析的WI-LDA模型研究[J]. 图书情报工作, 2018, 62(17):68-74.
[19] ( Wu Hong, Yi Huifang, Ma Yongxin, et al. WI-LDA : Technical Topic Analysis in Patents[J]. Library and Information Service, 2018, 62(17):68-74.)
[20] 王园园, 赵亚娟. 基于非负矩阵分解的技术主题演化分析[J]. 图书情报工作, 2018, 62(10):94-105.
[20] ( Wang Yuanyuan, Zhao Yajuan. Evolution Analysis of Technological Topic: An Approach Based on Non-Negative Matrix Factorization[J]. Library and Information Service, 2018, 62(10):94-105.)
[21] Lee D D, Seung H S, Learning the Parts of Objects by Non-Negative Matrix Factorization[J]. Nature, 1999, 401(6755):788-791.
doi: 10.1038/44565
[22] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3:993-1022.
[23] Mikolov T, Corrado G, Kai C, et al. Efficient Estimation of Word Representations in Vector Space[C]// Proceedings of the International Conference on Learning Representations. 2013.
[24] 祁海, 张民, 李俊涛, 等. MIT Technology Review 2021年“十大突破性技术”解读[J]. 中国科学基金, 2021, 35(3):402-418.
[24] ( Qi Hai, Zhang Min, Li Juntao, et al. Interpretation of 2021 MIT Technology Review’s Top 10 Breakthrough Technologies[J]. Bulletin of National Natural Science Foundation of China, 2021, 35(3):402-418.)
[25] MIT Technology Review 2020年“十大突破性技术”解读[J]. 中国科学基金, 2020, 34(3):250-265.
[25] (Interpretation of 2020 MIT Technology Review’s Top 10 Breakthrough Technologies[J]. Bulletin of National Natural Science Foundation of China, 2020, 34(3):250-265.)
[26] Blei D M, Lafferty J D. Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning. 2006: 113-120.
[1] 岳铁骐, 傅友斐, 徐健. 基于招聘广告的岗位人才需求分析框架构建与实证研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 151-166.
[2] 周云泽, 闵超. 基于LDA模型与共享语义空间的新兴技术识别——以自动驾驶汽车为例*[J]. 数据分析与知识发现, 2022, 6(2/3): 55-66.
[3] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[4] 张鑫,文奕,许海云. 一种融合表示学习与主题表征的作者合作预测模型*[J]. 数据分析与知识发现, 2021, 5(3): 88-100.
[5] 赵天资, 段亮, 岳昆, 乔少杰, 马子娟. 基于Biterm主题模型的新闻线索生成方法 *[J]. 数据分析与知识发现, 2021, 5(2): 1-13.
[6] 陈浩, 张梦毅, 程秀峰. 融合主题模型与决策树的跨地区专利合作关系发现与推荐*——以广东省和武汉市高校专利库为例[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[7] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[8] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[9] 陈文杰. 基于翻译模型的科研合作预测研究*[J]. 数据分析与知识发现, 2020, 4(10): 28-36.
[10] 凌洪飞,欧石燕. 面向主题模型的主题自动语义标注研究综述 *[J]. 数据分析与知识发现, 2019, 3(9): 16-26.
[11] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[12] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[13] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[14] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[15] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn