Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (7): 61-72     https://doi.org/10.11925/infotech.2096-3467.2018.1404
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例
关鹏1,2,王曰芬2(),傅柱3
1(巢湖学院经济与法学学院 合肥 238000)
2(南京理工大学经济管理学院 南京 210094)
3(江苏科技大学经济管理学院 镇江 212003)
Analyzing Topic Semantic Evolution with LDA: Case Study of Lithium Ion Batteries
Peng Guan1,2,Yuefen Wang2(),Zhu Fu3
1(School of Economics and Law, Chaohu University, Hefei 238000, China)
2(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China);
3(School of Economic and Management, Jiangsu University of Science and Technology, Zhenjiang 212003, China)
全文: PDF (1209 KB)   HTML ( 17
输出: BibTeX | EndNote (RIS)      
摘要 

目的】揭示学科领域不同发展阶段中主题语义内容层面的演化规律。【方法】结合LDA和生命周期理论, 提出主题语义演化分析方法, 重点解决主题过滤、主题语义相似度计算和主题语义演化模式判别等技术问题。【结果】研究发现锂离子电池领域主题之间的语义演化模式: 主题继承贯穿领域发展全过程; 主题分裂始于成长期, 在快速发展期分裂次数(6次)最多; 主题融合始于发展期, 在快速发展期融合次数(5次)最多。【局限】学科领域全局主题是否能够涵盖各阶段主题还需要进一步验证。主题语义演化的知识图谱需人工绘制, 还需进一步研究自动化实现方法。【结论】基于LDA的主题语义演化分析方法可深度揭示学科领域发展过程中继承、分裂和融合等重要语义演化模式, 为学科领域知识创新提供有价值的决策信息。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关鹏
王曰芬
傅柱
关键词 LDA主题过滤主题相似度计算主题语义演化    
Abstract

[Objective] This paper tries to identify the trends of topic semantic evolution at different development stages. [Methods] First, we combined the LDA model and life cycle theory to propose an analysis method. It addressed three technical issues, such as filtering topics, calculating topic semantic similarity and identifying topic semantic evolution patterns of lithium ion battery techniques. [Results] We found that topic inheritance ran through the whole process of discipline development. The topic splitting started at the growth stage and achieved 6 at the fast development stage. The topic merging began at the development stage and reached 5 at the fast development stage. [Limitations] More research is needed to determine whether the overall topics can cover all phases of the developments. The knowledge map of topic semantic evolution also needs to be created automatically. [Conclusions] The proposed method could identify key semantic evolution patterns such as inheritance, division and merging in the development stages. It provides valuable decision-making information for the knowledge innovation.

Key wordsLDA    Topic Filtering    Topic Similarity Calculation    Topic Semantic Evolution
收稿日期: 2018-12-14      出版日期: 2019-09-06
ZTFLH:  TP391 G35  
基金资助:*本文系国家自然科学基金项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(71373124);安徽省高校优秀青年人才支持计划重点项目“基于复杂网络理论的科学合作网络演化建模与仿真研究”的研究成果之一(gxyqZD2019066)
通讯作者: 王曰芬     E-mail: yuefen163@163.com
引用本文:   
关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
Peng Guan,Yuefen Wang,Zhu Fu. Analyzing Topic Semantic Evolution with LDA: Case Study of Lithium Ion Batteries. Data Analysis and Knowledge Discovery, 2019, 3(7): 61-72.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1404      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I7/61
  三种主要的主题语义演化模式示意图
  主题语义演化分析流程
  主题过滤机制
检索策略 内容
检索式 主题: (“lithium-ion battery”)OR主题: (“li-ion battery”)
来源数据库 SCI-EXPANDED, CPCI-S, CCR-EXPANDED, IC
文献类型 ARTICLE OR PROCEEDINGS PAPER
语种 ENGLISH
起止时间 1996-2016
  锂离子电池领域WOS检索策略
  锂离子电池领域生命周期示意图
  锂离子电池领域全局及各阶段主题抽取数目确定
  锂离子电池全局主题展示
Period1 Total Similarity Period2 Total Similarity Period3 Total Similarity Period4 Total Similarity
TOPIC1-2 TOPIC0 0.6967 TOPIC2-0 TOPIC4 0.6414 TOPIC3-0 TOPIC16 0.5127 TOPIC4-0 TOPIC20 0.7551
TOPIC1-6 TOPIC4 0.6516 TOPIC2-1 TOPIC2 0.6311 TOPIC3-2 TOPIC9 0.6478 TOPIC4-1 TOPIC21 0.7117
TOPIC2-3 TOPIC26 0.5351 TOPIC3-4 TOPIC19 0.5928 TOPIC4-2 TOPIC28 0.5770
TOPIC2-4 TOPIC18 0.6746 TOPIC3-5 TOPIC13 0.7918 TOPIC4-3 TOPIC13 0.8123
TOPIC2-5 TOPIC13 0.7051 TOPIC3-6 TOPIC20 0.6012 TOPIC4-4 TOPIC15 0.7438
TOPIC2-6 TOPIC5 0.5293 TOPIC3-7 TOPIC17 0.6544 TOPIC4-5 TOPIC29 0.8251
TOPIC2-7 TOPIC11 0.5234 TOPIC3-8 TOPIC23 0.7040 TOPIC4-6 TOPIC17 0.8359
TOPIC2-12 TOPIC9 0.5126 TOPIC3-11 TOPIC2 0.5399 TOPIC4-8 TOPIC7 0.6125
TOPIC2-13 TOPIC28 0.5353 TOPIC3-12 TOPIC27 0.6356 TOPIC4-10 TOPIC22 0.6173
TOPIC2-14 TOPIC10 0.7870 TOPIC3-13 TOPIC6 0.6828 TOPIC4-11 TOPIC28 0.7419
TOPIC3-14 TOPIC4 0.7191 TOPIC4-12 TOPIC0 0.6675
TOPIC3-15 TOPIC10 0.8036 TOPIC4-13 TOPIC16 0.5920
TOPIC3-16 TOPIC28 0.5894 TOPIC4-14 TOPIC22 0.7608
TOPIC3-17 TOPIC29 0.7393 TOPIC4-15 TOPIC19 0.6163
TOPIC3-18 TOPIC22 0.7179 TOPIC4-16 TOPIC22 0.8565
TOPIC3-19 TOPIC18 0.8335 TOPIC4-17 TOPIC25 0.7555
TOPIC4-18 TOPIC24 0.7675
TOPIC4-19 TOPIC12 0.8842
TOPIC4-20 TOPIC10 0.8262
TOPIC4-21 TOPIC9 0.8343
TOPIC4-23 TOPIC18 0.7892
TOPIC4-24 TOPIC6 0.7144
  各阶段主题过滤结果
  锂离子电池领域主题语义演化图谱1
  锂离子电池领域主题语义演化图谱2
Period1 Perid2 Period3 Perid4
# of topic splitting 0 2 2 6
# of topic merging 0 0 1 5
# of new topics 2 7 7 6
  各阶段新生主题、主题融合与主题分裂情况
[1] 王曰芬, 宋爽, 苗露 . 共现分析在知识服务中的应用研究[J]. 现代图书情报技术, 2006(4):29-34.
[1] ( Wang Yuefen, Song Shuang, Miao Lu . Application Study of Co-occurrence Analysis in Knowledge Service[J]. New Technology of Library and Information Service, 2006(4):29-34.)
[2] Deerwester S, Dumais S T, Furnas G W , et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990,41(6):391-407.
[3] 郭红梅, 张智雄 . 基于图挖掘的文本主题识别方法研究综述[J]. 中国图书馆学报, 2015,41(6):97-108.
[3] ( Guo Hongmei, Zhang Zhixiong . Methods of Text Theme Identification Based on Graph Mining[J]. Journal of Library Science in China, 2015,41(6):97-108.)
[4] 陈必坤, 王曰芬 . 学科结构与演化可视化分析的内容研究[J]. 图书情报工作, 2016,60(21):87-95.
[4] ( Chen Bikun, Wang Yuefen . Contents Research of Visualization Analysis of Discipline Structure and Evolution[J]. Library and Information Service, 2016,60(21):87-95.)
[5] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[6] Blei D M, Lafferty J D. Dynamic Topic Models [C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.
[7] Wang X, McCallum A. Topics Over Time: A Non-Markov Continuous-Time Model of Topical Trends [C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2006: 424-433.
[8] Blei D M . Probabilistic Topic Models[J]. Communications of the ACM, 2012,55(4):77-84.
[9] 曾利, 李自力, 谭跃进 . 基于动态LDA的科研文献主题演化分析[J]. 软件, 2014,35(5):102-107.
[9] ( Zeng Li, Li Zili, Tan Yuejin . Analysis of Topic Evolution in Scientific Literature Based on Dynamic Latent Dirichlet Allocation[J]. Software, 2014,35(5):102-107.)
[10] Hassan S U, Haddawy P . Analyzing Knowledge Flows of Scientific Literature Through Semantic Links: A Case Study in the Field of Energy[J]. Scientometrics, 2015,103(1):33-46.
[11] 刘自强, 王效岳, 白如江 . 多维度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例[J]. 中国图书馆学报, 2016,42(6):67-84.
[11] ( Liu Ziqiang, Wang Xiaoyue, Bai Rujiang . Research on Visualization Analysis Method of Discipline Topics Evolution from the Perspective of Multi Dimensions: A Case Study of the Big Data in the Field of Library and Information Science in China[J]. Journal of Library Science in China, 2016,42(6):67-84.)
[12] 陈伟, 林超然, 李金秋 , 等. 基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例[J]. 情报学报, 2018,37(7):732-741.
[12] ( Chen Wei, Lin Chaoran, Li Jinqiu , et al. Analysis of the Evolutionary Trend of Technical Topics in Patents Based on LDA and HMM: Taking Marine Diesel Engine Technology as an Example[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(7):732-741.)
[13] 吴菲菲, 陈肖微, 黄鲁成 , 等. 基于语义相似度的技术多主题演化路径识别方法研究[J]. 情报杂志, 2018,37(5):91-96.
[13] ( Wu Feifei, Chen Xiaowei, Huang Lucheng , et al. Multi-thematic Evolution of Technology Based on Semantic Similarity[J]. Journal of Intelligence, 2018,37(5):91-96.)
[14] 曲佳彬, 欧石燕 . 基于主题过滤与主题关联的学科主题演化分析[J]. 数据分析与知识发现, 2018,2(1):64-75.
[14] ( Qu Jiabin, Ou Shiyan . Analyzing Topic Evolution with Topic Filtering and Relevance[J]. Data Analysis and Knowledge Discovery, 2018,2(1):64-75.)
[15] 张金柱, 吕品 . 基于主题关联度改进的主题演变和突变分析[J]. 情报理论与实践, 2018,41(3):129-135.
[15] ( Zhang Jinzhu, Lv Pin . Topic Evolution and Mutation Analysis Based on Improved Topic Correlation Method[J]. Information Studies: Theory & Application, 2018,41(3):129-135.)
[16] Palla G, Barabási A L, Vicsek T . Quantifying Social Group Evolution[J]. Nature, 2007,446(7136):664-667.
[17] 关鹏, 王曰芬 . 科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 现代图书情报技术, 2016(9):42-50.
[17] ( Guan Peng, Wang Yuefen . Identifying Optimal Topic Numbers from Sci-Tech Information with LDA Model[J]. New Technology of Library and Information Service, 2016(9):42-50.)
[1] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[2] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[3] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[4] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[5] 叶光辉,曾杰妍,胡婧岚,毕崇武. 城市画像视角下的社会公众情感演化研究*[J]. 数据分析与知识发现, 2020, 4(4): 15-26.
[6] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[7] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[8] 叶光辉,徐彤,毕崇武,李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析*[J]. 数据分析与知识发现, 2020, 4(11): 121-130.
[9] 黄微,赵江元,闫璐. 网络热点事件话题漂移指数构建与实证研究*[J]. 数据分析与知识发现, 2020, 4(11): 92-101.
[10] 王晰巍,张柳,黄博,韦雅楠. 基于LDA的微博用户主题图谱构建及实证研究*——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10): 47-57.
[11] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12] 孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
[13] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[14] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[15] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn