Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (7): 61-72    DOI: 10.11925/infotech.2096-3467.2018.1404
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例
关鹏1,2,王曰芬2(),傅柱3
1(巢湖学院经济与法学学院 合肥 238000)
2(南京理工大学经济管理学院 南京 210094)
3(江苏科技大学经济管理学院 镇江 212003)
Analyzing Topic Semantic Evolution with LDA: Case Study of Lithium Ion Batteries
Peng Guan1,2,Yuefen Wang2(),Zhu Fu3
1(School of Economics and Law, Chaohu University, Hefei 238000, China)
2(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China);
3(School of Economic and Management, Jiangsu University of Science and Technology, Zhenjiang 212003, China)
全文: PDF(1209 KB)   HTML ( 13
输出: BibTeX | EndNote (RIS)      
摘要 

目的】揭示学科领域不同发展阶段中主题语义内容层面的演化规律。【方法】结合LDA和生命周期理论, 提出主题语义演化分析方法, 重点解决主题过滤、主题语义相似度计算和主题语义演化模式判别等技术问题。【结果】研究发现锂离子电池领域主题之间的语义演化模式: 主题继承贯穿领域发展全过程; 主题分裂始于成长期, 在快速发展期分裂次数(6次)最多; 主题融合始于发展期, 在快速发展期融合次数(5次)最多。【局限】学科领域全局主题是否能够涵盖各阶段主题还需要进一步验证。主题语义演化的知识图谱需人工绘制, 还需进一步研究自动化实现方法。【结论】基于LDA的主题语义演化分析方法可深度揭示学科领域发展过程中继承、分裂和融合等重要语义演化模式, 为学科领域知识创新提供有价值的决策信息。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关鹏
王曰芬
傅柱
关键词 LDA主题过滤主题相似度计算主题语义演化    
Abstract

[Objective] This paper tries to identify the trends of topic semantic evolution at different development stages. [Methods] First, we combined the LDA model and life cycle theory to propose an analysis method. It addressed three technical issues, such as filtering topics, calculating topic semantic similarity and identifying topic semantic evolution patterns of lithium ion battery techniques. [Results] We found that topic inheritance ran through the whole process of discipline development. The topic splitting started at the growth stage and achieved 6 at the fast development stage. The topic merging began at the development stage and reached 5 at the fast development stage. [Limitations] More research is needed to determine whether the overall topics can cover all phases of the developments. The knowledge map of topic semantic evolution also needs to be created automatically. [Conclusions] The proposed method could identify key semantic evolution patterns such as inheritance, division and merging in the development stages. It provides valuable decision-making information for the knowledge innovation.

Key wordsLDA    Topic Filtering    Topic Similarity Calculation    Topic Semantic Evolution
收稿日期: 2018-12-14     
中图分类号:  TP391 G35  
基金资助:*本文系国家自然科学基金项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(71373124);安徽省高校优秀青年人才支持计划重点项目“基于复杂网络理论的科学合作网络演化建模与仿真研究”的研究成果之一(gxyqZD2019066)
通讯作者: 王曰芬     E-mail: yuefen163@163.com
引用本文:   
关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
Peng Guan,Yuefen Wang,Zhu Fu. Analyzing Topic Semantic Evolution with LDA: Case Study of Lithium Ion Batteries. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1404.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1404
图1  三种主要的主题语义演化模式示意图
图2  主题语义演化分析流程
图3  主题过滤机制
检索策略 内容
检索式 主题: (“lithium-ion battery”)OR主题: (“li-ion battery”)
来源数据库 SCI-EXPANDED, CPCI-S, CCR-EXPANDED, IC
文献类型 ARTICLE OR PROCEEDINGS PAPER
语种 ENGLISH
起止时间 1996-2016
表1  锂离子电池领域WOS检索策略
图4  锂离子电池领域生命周期示意图
图5  锂离子电池领域全局及各阶段主题抽取数目确定
图6  锂离子电池全局主题展示
Period1 Total Similarity Period2 Total Similarity Period3 Total Similarity Period4 Total Similarity
TOPIC1-2 TOPIC0 0.6967 TOPIC2-0 TOPIC4 0.6414 TOPIC3-0 TOPIC16 0.5127 TOPIC4-0 TOPIC20 0.7551
TOPIC1-6 TOPIC4 0.6516 TOPIC2-1 TOPIC2 0.6311 TOPIC3-2 TOPIC9 0.6478 TOPIC4-1 TOPIC21 0.7117
TOPIC2-3 TOPIC26 0.5351 TOPIC3-4 TOPIC19 0.5928 TOPIC4-2 TOPIC28 0.5770
TOPIC2-4 TOPIC18 0.6746 TOPIC3-5 TOPIC13 0.7918 TOPIC4-3 TOPIC13 0.8123
TOPIC2-5 TOPIC13 0.7051 TOPIC3-6 TOPIC20 0.6012 TOPIC4-4 TOPIC15 0.7438
TOPIC2-6 TOPIC5 0.5293 TOPIC3-7 TOPIC17 0.6544 TOPIC4-5 TOPIC29 0.8251
TOPIC2-7 TOPIC11 0.5234 TOPIC3-8 TOPIC23 0.7040 TOPIC4-6 TOPIC17 0.8359
TOPIC2-12 TOPIC9 0.5126 TOPIC3-11 TOPIC2 0.5399 TOPIC4-8 TOPIC7 0.6125
TOPIC2-13 TOPIC28 0.5353 TOPIC3-12 TOPIC27 0.6356 TOPIC4-10 TOPIC22 0.6173
TOPIC2-14 TOPIC10 0.7870 TOPIC3-13 TOPIC6 0.6828 TOPIC4-11 TOPIC28 0.7419
TOPIC3-14 TOPIC4 0.7191 TOPIC4-12 TOPIC0 0.6675
TOPIC3-15 TOPIC10 0.8036 TOPIC4-13 TOPIC16 0.5920
TOPIC3-16 TOPIC28 0.5894 TOPIC4-14 TOPIC22 0.7608
TOPIC3-17 TOPIC29 0.7393 TOPIC4-15 TOPIC19 0.6163
TOPIC3-18 TOPIC22 0.7179 TOPIC4-16 TOPIC22 0.8565
TOPIC3-19 TOPIC18 0.8335 TOPIC4-17 TOPIC25 0.7555
TOPIC4-18 TOPIC24 0.7675
TOPIC4-19 TOPIC12 0.8842
TOPIC4-20 TOPIC10 0.8262
TOPIC4-21 TOPIC9 0.8343
TOPIC4-23 TOPIC18 0.7892
TOPIC4-24 TOPIC6 0.7144
表2  各阶段主题过滤结果
图7  锂离子电池领域主题语义演化图谱1
图8  锂离子电池领域主题语义演化图谱2
Period1 Perid2 Period3 Perid4
# of topic splitting 0 2 2 6
# of topic merging 0 0 1 5
# of new topics 2 7 7 6
表3  各阶段新生主题、主题融合与主题分裂情况
[1] 王曰芬, 宋爽, 苗露 . 共现分析在知识服务中的应用研究[J]. 现代图书情报技术, 2006(4):29-34.
( Wang Yuefen, Song Shuang, Miao Lu . Application Study of Co-occurrence Analysis in Knowledge Service[J]. New Technology of Library and Information Service, 2006(4):29-34.)
[2] Deerwester S, Dumais S T, Furnas G W , et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990,41(6):391-407.
[3] 郭红梅, 张智雄 . 基于图挖掘的文本主题识别方法研究综述[J]. 中国图书馆学报, 2015,41(6):97-108.
( Guo Hongmei, Zhang Zhixiong . Methods of Text Theme Identification Based on Graph Mining[J]. Journal of Library Science in China, 2015,41(6):97-108.)
[4] 陈必坤, 王曰芬 . 学科结构与演化可视化分析的内容研究[J]. 图书情报工作, 2016,60(21):87-95.
( Chen Bikun, Wang Yuefen . Contents Research of Visualization Analysis of Discipline Structure and Evolution[J]. Library and Information Service, 2016,60(21):87-95.)
[5] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[6] Blei D M, Lafferty J D. Dynamic Topic Models [C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.
[7] Wang X, McCallum A. Topics Over Time: A Non-Markov Continuous-Time Model of Topical Trends [C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2006: 424-433.
[8] Blei D M . Probabilistic Topic Models[J]. Communications of the ACM, 2012,55(4):77-84.
[9] 曾利, 李自力, 谭跃进 . 基于动态LDA的科研文献主题演化分析[J]. 软件, 2014,35(5):102-107.
( Zeng Li, Li Zili, Tan Yuejin . Analysis of Topic Evolution in Scientific Literature Based on Dynamic Latent Dirichlet Allocation[J]. Software, 2014,35(5):102-107.)
[10] Hassan S U, Haddawy P . Analyzing Knowledge Flows of Scientific Literature Through Semantic Links: A Case Study in the Field of Energy[J]. Scientometrics, 2015,103(1):33-46.
[11] 刘自强, 王效岳, 白如江 . 多维度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例[J]. 中国图书馆学报, 2016,42(6):67-84.
( Liu Ziqiang, Wang Xiaoyue, Bai Rujiang . Research on Visualization Analysis Method of Discipline Topics Evolution from the Perspective of Multi Dimensions: A Case Study of the Big Data in the Field of Library and Information Science in China[J]. Journal of Library Science in China, 2016,42(6):67-84.)
[12] 陈伟, 林超然, 李金秋 , 等. 基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例[J]. 情报学报, 2018,37(7):732-741.
( Chen Wei, Lin Chaoran, Li Jinqiu , et al. Analysis of the Evolutionary Trend of Technical Topics in Patents Based on LDA and HMM: Taking Marine Diesel Engine Technology as an Example[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(7):732-741.)
[13] 吴菲菲, 陈肖微, 黄鲁成 , 等. 基于语义相似度的技术多主题演化路径识别方法研究[J]. 情报杂志, 2018,37(5):91-96.
( Wu Feifei, Chen Xiaowei, Huang Lucheng , et al. Multi-thematic Evolution of Technology Based on Semantic Similarity[J]. Journal of Intelligence, 2018,37(5):91-96.)
[14] 曲佳彬, 欧石燕 . 基于主题过滤与主题关联的学科主题演化分析[J]. 数据分析与知识发现, 2018,2(1):64-75.
( Qu Jiabin, Ou Shiyan . Analyzing Topic Evolution with Topic Filtering and Relevance[J]. Data Analysis and Knowledge Discovery, 2018,2(1):64-75.)
[15] 张金柱, 吕品 . 基于主题关联度改进的主题演变和突变分析[J]. 情报理论与实践, 2018,41(3):129-135.
( Zhang Jinzhu, Lv Pin . Topic Evolution and Mutation Analysis Based on Improved Topic Correlation Method[J]. Information Studies: Theory & Application, 2018,41(3):129-135.)
[16] Palla G, Barabási A L, Vicsek T . Quantifying Social Group Evolution[J]. Nature, 2007,446(7136):664-667.
[17] 关鹏, 王曰芬 . 科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 现代图书情报技术, 2016(9):42-50.
( Guan Peng, Wang Yuefen . Identifying Optimal Topic Numbers from Sci-Tech Information with LDA Model[J]. New Technology of Library and Information Service, 2016(9):42-50.)
[1] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[2] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[3] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[4] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[5] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[6] 何跃,丰月,赵书朋,马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[7] 张涛,马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[8] 徐艳华,苗雨洁,苗琳,吕学强. 基于LDA模型的HSK作文生成*[J]. 数据分析与知识发现, 2018, 2(9): 80-87.
[9] 曾子明,杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59.
[10] 庞贝贝,苟娟琼,穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[11] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
[12] 王璟琦,李锐,吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[13] 李贺,祝琳琳,闫敏,刘金承,洪闯. 开放式创新社区用户信息有用性识别研究*[J]. 数据分析与知识发现, 2018, 2(12): 12-22.
[14] 曲佳彬,欧石燕. 基于主题过滤与主题关联的学科主题演化分析*[J]. 数据分析与知识发现, 2018, 2(1): 64-75.
[15] 李真,丁晟春,王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn