数据分析与知识发现, 2019, 3(7): 61-72 doi: 10.11925/infotech.2096-3467.2018.1404

研究论文

基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例

关鹏1,2, 王曰芬,,2, 傅柱3

1(巢湖学院经济与法学学院 合肥 238000)

2(南京理工大学经济管理学院 南京 210094)

3(江苏科技大学经济管理学院 镇江 212003)

Analyzing Topic Semantic Evolution with LDA: Case Study of Lithium Ion Batteries

Guan Peng1,2, Wang Yuefen,,2, Fu Zhu3

1(School of Economics and Law, Chaohu University, Hefei 238000, China)

2(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China);

3(School of Economic and Management, Jiangsu University of Science and Technology, Zhenjiang 212003, China)

通讯作者: 王曰芬, ORCID: 0000-0002-7143-7766, E-mail:yuefen163@163.com

收稿日期: 2018-12-14   修回日期: 2019-02-12   网络出版日期: 2019-07-25

基金资助: *本文系国家自然科学基金项目“新研究领域科学文献传播网络生长及对传播效果影响研究”.  71373124
安徽省高校优秀青年人才支持计划重点项目“基于复杂网络理论的科学合作网络演化建模与仿真研究”的研究成果之一.  gxyqZD2019066

Received: 2018-12-14   Revised: 2019-02-12   Online: 2019-07-25

摘要

目的】揭示学科领域不同发展阶段中主题语义内容层面的演化规律。【方法】结合LDA和生命周期理论, 提出主题语义演化分析方法, 重点解决主题过滤、主题语义相似度计算和主题语义演化模式判别等技术问题。【结果】研究发现锂离子电池领域主题之间的语义演化模式: 主题继承贯穿领域发展全过程; 主题分裂始于成长期, 在快速发展期分裂次数(6次)最多; 主题融合始于发展期, 在快速发展期融合次数(5次)最多。【局限】学科领域全局主题是否能够涵盖各阶段主题还需要进一步验证。主题语义演化的知识图谱需人工绘制, 还需进一步研究自动化实现方法。【结论】基于LDA的主题语义演化分析方法可深度揭示学科领域发展过程中继承、分裂和融合等重要语义演化模式, 为学科领域知识创新提供有价值的决策信息。

关键词: LDA ; 主题过滤 ; 主题相似度计算 ; 主题语义演化

Abstract

[Objective] This paper tries to identify the trends of topic semantic evolution at different development stages. [Methods] First, we combined the LDA model and life cycle theory to propose an analysis method. It addressed three technical issues, such as filtering topics, calculating topic semantic similarity and identifying topic semantic evolution patterns of lithium ion battery techniques. [Results] We found that topic inheritance ran through the whole process of discipline development. The topic splitting started at the growth stage and achieved 6 at the fast development stage. The topic merging began at the development stage and reached 5 at the fast development stage. [Limitations] More research is needed to determine whether the overall topics can cover all phases of the developments. The knowledge map of topic semantic evolution also needs to be created automatically. [Conclusions] The proposed method could identify key semantic evolution patterns such as inheritance, division and merging in the development stages. It provides valuable decision-making information for the knowledge innovation.

Keywords: LDA ; Topic Filtering ; Topic Similarity Calculation ; Topic Semantic Evolution

PDF (1209KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

关鹏, 王曰芬, 傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例 . 数据分析与知识发现[J], 2019, 3(7): 61-72 doi:10.11925/infotech.2096-3467.2018.1404

Guan Peng. Analyzing Topic Semantic Evolution with LDA: Case Study of Lithium Ion Batteries. Data Analysis and Knowledge Discovery[J], 2019, 3(7): 61-72 doi:10.11925/infotech.2096-3467.2018.1404

1 引言

在科技情报分析中, 主题的挖掘和演化分析是发现学科领域知识结构、理清学科领域发展脉络、预测学科领域发展趋势的关键。从结构层面来看, 主题属于微观结构, 通常代表一个学科领域的研究方向; 从内容层面来看, 主题是学科知识单元的集合, 通常为隐性语义结构。在科技情报分析中, 主题常常表示为在语义上相关或相近的一组词的集合, 如: 从文献计量分析角度, 通常将主题表示为词的共现聚类[1]; 从自然语言处理角度, 通常将主题表示为词的概率分 布[2]; 从网络科学角度, 则将主题表示为知识网络的社区结构[3]。总体来讲, 主题挖掘与表示已经形成了较为成熟的方法体系, 如词频表示法、共现聚类法、网络社区挖掘、主题模型等。

然而, 科学技术发展到现阶段, 在经济社会转型升级的强烈需求、知识和技术体系的内生驱动、大数据和信息技术的支撑下, 科技创新研究对信息或知识的需求不再停留于对信息的获取和序化, 而更需要从海量信息中获得能够体现科学技术演化的脉络、衍生、嬗变、关联要素等的知识, 更需要的是对未知知识的探索、计算和发现。因此, 能够体现学科前沿知识和动态演化知识的主题演化方法普遍得到学者关注。尤其是, 在学科领域发展演化过程中, 如何揭示主题语义内容层面的演化规律成为当前研究的热点。基于此, 本文利用LDA (Latent Dirichlet Allocation)主题模型提出一种主题语义演化分析方法, 旨在揭示学科领域不同发展阶段中主题语义内容层面的演化规律, 如继承、融合、分裂等主题语义演化趋势, 为学科知识创新服务提供决策支持。

2 相关研究

学科主题结构演化分析是学科演化分析的主要内容之一, 当前多采用共词网络和主题模型的分析方法[4]。主题模型是对通过文本建模方法实现文本降维的一类模型的统称。2003年Blei等提出LDA主题模型, 该模型是一种概率生成模型, 使用Dirichlet分布描述文档的主题混合比例和主题的词混合比例, 模拟文档产生过程, 实现主题的抽取[5]。LDA在文档、主题、词语三个层次上进行概率建模, 计算主题与文档、主题与词语之间的语义关联度, 为科学文献主题挖掘和主题演化分析提供了新的方法和思路。

在LDA主题抽取的基础上, 引入文本语料的时间信息, 可以研究主题随时间的演化规律, 如主题的研究强度变化趋势。Blei等给出了分析具有时序特征语料库主题演化的模型DTM[6], 该模型将大规模文本数据库按照时间窗口进行离散化, 并假设当前的主题由前一时间节点的主题演化而来, 由此构建主题之间的演化关系, 以反映主题之间的“遗传”和“变异”关系。Wang等提出了不同于将时间离散化的主题演化模型(Topic Over Time, TOT)[7], 该模型中不再使用马尔科夫假设, 而是将每个主题表示为关于时间变量的连续概率分布, 每个主题不仅和词的共现有关而且和文本的时间戳有关, 则一个主题在概率分布的意义下是固定不变的, 但是主题的内容以及主题之间的关系是随着时间变化的。大量实证研究表明LDA在学科领域研究热点挖掘[8]、主题强度演化[9]、研究趋势预测[10]等方面取得了良好效果。

在科技情报分析中, 主题演化指主题在学科发展过程中逐渐变化的现象, 这些变化包括主题时间和空间变化趋势, 如主题强度演化和主题语义演化。主题强度演化指主题被关注的热点程度随时间的变化趋势; 主题语义演化指主题所包含的话题内容随时间的发展变化趋势, 如新话题的产生和旧话题的消亡, 以及某话题向另几个话题扩散或收敛等趋势。当前, 不少学者开始研究主题语义演化。刘自强等从主题强度、结构和内容等多个维度构建学科主题演化分析模型, 并以关键词共词网络为基础, 利用Web前端可视化技术绘制主题演化知识图谱[11]。但是主题内容演化分析主要依赖于人工标注, 且仅从关键词的流动情况来看主题演化, 语义信息量不足。陈伟等利用LDA主题模型和隐含马尔科夫模型, 从技术主题的转移概率角度分析技术主题的语义演化趋势, 对于技术主题预测起到一定作用[12]。吴菲菲等利用LDA主题模型抽取专利技术主题, 以主题相似度为关系权重构建专利引用网络, 以此分析技术主路径及其演化规律, 属于基于图挖掘的主题演化分析方法[13]。曲佳彬等利用LDA主题模型设计主题演化方法, 通过主题过滤和主题关联确定学科领域主题之间的语义关系。但是, 由于各阶段主题抽取过程中采用不同的LDA主题模型, 导致主题表示的向量空间不同, 因此在主题相似度计算以及主题过滤方面需要进行人工干涉[14]。张金柱等认为主题演化研究涵盖主题演变分析和主题突变识别, 其中, 主题演变主要涉及主题发现和主题演变路径识别, 主题突变分析主要对变化剧烈的主题进行动态识别[15]。主题突变分析在新兴和前沿主题识别方面起到重要作用, 是主题语义演化分析的重要组成部分。

综上, 虽然LDA主题模型在主题语义演化分析中起到重要作用, 但是尚存在一些问题需要解决, 如学科发展阶段中主题过滤问题、各发展阶段中主题关联度计算问题, 以及学科发展生命周期中主题演化路径的确定等。基于以上问题, 本文提出基于LDA的主题语义演化分析框架, 旨在解决利用LDA进行主题语义演化分析中的若干问题, 为主题语义演化分析提供新的思路和方法。

3 基于LDA的主题语义演化分析方法

主题语义演化分析的主要思路是利用生命周期理论和主题相似度计算, 将学科领域发展过程中主题之间的语义关联进行量化, 同时利用主题词的语义信息解析主题在发展过程中的语义演化模式。Palla等提出网络社区结构的演化特征是网络社区形成的潜在机制, 而并非植根于网络的表现形式或者数据的采集过程, 并提出社区结构演化的基本模式: 新生、消亡、膨胀、收缩、融合、分解[16]。本文认为主题作为学科领域的一种潜在语义知识结构, 也具有其基本的结构演化模式, 并不取决于各主题研究强度的大小以及文献量的多少。而且, 主题强度的演化只是刻画了主题在学科研究中被关注的程度, 并没有深入到主题的语义内容层面, 下面对主题语义演化分析框架进行阐述, 并解决演化分析中的若干技术问题。

3.1 基于LDA的主题语义演化模式识别及分析
框架构建

主题语义演化分析主要包括主题语义关联演化分析和主题语义内容演化分析两个部分。主题语义关联演化指主题与主题之间的语义关联强度随时间的演化趋势, 是主题之间的外在关联表现。主题之间的语义关联强度刻画需要计算主题之间的语义相似度, 根据不同时间窗口内主题语义相似度的大小, 可以识别主题之间的继承演化、融合演化和分裂演化等三种主要演化模式, 如图1[11]所示。

图1

图1   三种主要的主题语义演化模式示意图


(1) 分裂演化: 前一时间窗口内某一个主题与后继时间窗口内某两个以上的主题具有较高的语义相似度, 且后面主题是新生主题, 则说明前一时间窗口内的某个主题分裂成若干个新主题, 这些主题之间构成了分裂演化模式。

(2) 融合演化: 前一时间窗口内两个以上的主题与后继时间窗口内某一个主题具有较高的语义相似度, 且后继时间窗口内的主题是新生主题, 则说明前一时间窗口内的某些主题融合成一个新主题, 这些主题之间构成了融合演化模式。

(3) 继承演化: 按照时间顺序, 相邻的两个时间窗口某两个主题之间具有较高的语义关联性, 且并没有新主题的产生, 则说明后一个主题继承了前面主题的语义信息, 二者之间构成继承演化模式。

主题语义内容演化是在明确了主题之间的语义演化模式后, 对主题之间语义内容的区别和联系进行解析, 从而判断主题在继承、融合与分裂等演化模式中包含的语义演化信息, 如稳定的理论或方法的继承、新兴增长点的成长、学科分支的交叉融合等。

因此, 主题语义关联演化和主题语义内容演化是相辅相成的有机整体, 通过主题语义关联演化确定学科领域发展过程中主题之间的演化模式, 通过主题语义内容演化确定各演化模式中包含的语义演化信息, 从而为学科知识创新提供更加丰富的、直观的、有价值的信息。可以说, 主题的继承、融合和分裂等主要演化模式是学科领域发展的推进器, 推动学科领域研究不断推陈出新。

主题语义演化分析流程框架如图2所示。

图2

图2   主题语义演化分析流程


(1) 对学科领域文献数据集进行预处理, 包括去重、分词、去停用词等;

(2) 利用文献信息统计规律对学科领域发展进行生命周期划分;

(3) 对文献语料库进行全局LDA主题建模和主题抽取, 确定主题数目、抽取全局主题, 并获取主题词典;

(4) 利用主题词典对学科发展各个阶段的局部语料进行LDA主题建模和主题抽取, 确保全局主题和局部主题具有相同的主题词典;

(5) 利用主题过滤机制对学科发展各阶段主题进行主题过滤从而确定有效主题;

(6) 根据主题语义关联度阈值确定相邻时间窗口内主题语义演化模式。

3.2 主题过滤机制

经过LDA抽取的主题会出现噪声。所谓噪声主题即主题所对应的词向量没有明确的语义信息。导致噪声产生的原因主要有两个方面。

(1) 主题数目设置过多, 针对此问题, 本文通过基于Perplexity-Var指标的LDA最优主题数确定方法予以解决[17];

(2) 语料的质量, 如果语料中包含过多功能词(如: 限定词、介词、副词、连词等)和具有普遍意义的词汇(如: 研究、讨论、分析等), 这些词对于学科主题来讲并没有实际意义, 一般通过停用词表解决这个问题。但是停用词表的规模有限, 并不能穷尽所有噪声词汇, 导致LDA主题抽取的部分主题没有实际意义。因此, 利用学科领域文献数据集中的关键词构建学科领域词典, 作为文本分词器的补充词典, 可以较大幅度提高分词质量。

为确保学科领域发展各阶段主题抽取的质量, 构建主题过滤机制, 以过滤学科发展各阶段的噪声主题, 如图3所示。

图3

图3   主题过滤机制


本文所提主题过滤机制的前提假设是通过全局语料抽取的主题涵盖了阶段语料抽取的主题。全局语料由学科领域所有文献构成, 阶段语料是全局语料的子集, 所以这个前提假设具有合理性。通过Perplexity-Var指标确定全局主题数目后, 利用LDA主题建模抽取全局主题, 然后人工辅助对这些抽取的主题进行语义识别, 去掉没有明确语义内容的主题, 筛选出全局有效主题。相似度计算是筛选阶段有效主题的关键, 主题之间的相似度计算有多种方法, 可以使用KL散度, 也可以使用余弦距离。在设置合理的相似度阈值后, 凡是阶段抽取的主题与全局有效主题之间相似度大于阈值的, 则认为是有效主题, 小于阈值的则认为是无效主题。这种主题过滤机制既克服了人工进行有效主题筛选的弊端, 又使各阶段有效主题之间具有语义继承性, 便于后续主题语义演化的分析。

3.3 主题相似度计算

在概率主题模型中, 主题指在语义上与之相关的一列词项及其权重组成的向量, 与主题关系越密切的词语, 条件概率越大, 反之则越小。用向量表示如公式(1)所示。

$T=(p({{w}_{1}}|T),p({{w}_{2}}|T),\cdots ,p({{w}_{n}}|T))$

主题相似度计算实际上是词向量之间的相似度, 目前使用比较广泛的有余弦相似度、KL相似度和JS相似度。考虑到主题过滤机制中需要设置主题相似度强度阈值, KL相似度和JS相似度在取相似度阈值方面很难有统一的标准, 而余弦相似度介于0到1之间, 值越大说明主题之间的语义越接近, 因此利用余弦距离计算主题之间的相似度, 且取0.5作为阈值。

假设两个主题如公式(2)和公式(3)所示。

${{T}_{1}}=(p({{w}_{1}}|{{T}_{1}}),p({{w}_{2}}|{{T}_{1}})\mathrm{, }\cdots \mathrm{, }p({{w}_{\text{n}}}|{{T}_{1}}))$
${{T}_{2}}=(p({{w}_{1}}|{{T}_{2}}),p({{w}_{2}}|{{T}_{2}})\mathrm{, }\cdots \mathrm{, }p({{w}_{\text{n}}}|{{T}_{2}}))$

其中, $w=({{w}_{1}},{{w}_{2}},\cdots ,{{w}_{n}})$为语料词典, n为语料中单词的个数。

使用全局语料词典对阶段语料进行LDA主题建模和主题抽取, 这样全局主题和阶段主题具有相同的维度, 可以计算相似度。

余弦相似度(Cosin Similarity, CS)的计算方法如公式(4)所示。

$\begin{align} & CS({{T}_{1}},{{T}_{2}})\ =\frac{{{T}_{1}}\cdot {{T}_{2}}}{\left\| {{T}_{1}} \right\|\cdot \left\| {{T}_{2}} \right\|} \\ & {{_{{}}}_{{}}}{{_{{}}}_{{}}}{{_{{}}}_{{}}}{{_{{}}}_{{}}}{{_{{}}}_{{}}}_{{}}\ =\frac{\sum\limits_{i=1}^{n}{(p({{w}_{i}}|{{T}_{1}})p({{w}_{i}}|{{T}_{2}}))}}{\sqrt{\sum\limits_{i=1}^{n}{{{(p({{w}_{i}}|{{T}_{1}}))}^{2}}}}\sqrt{\sum\limits_{i=1}^{n}{{{(p({{w}_{i}}|{{T}_{2}}))}^{2}}}}} \\ \end{align}$

4 主题语义演化分析实证研究

为检验本文基于LDA的主题语义演化分析方法的可操作性和有效性, 展开实证研究。数据来源于Web of Science的锂离子电池(Lithium-Ion Battery)领域, 检索策略如表1所示, 检索时间为2017年1月8日。经过去重, 去除与主题无关的文献, 去除缺失等数据预处理过程, 最终获得锂离子电池语料14 693篇。

表1   锂离子电池领域WOS检索策略

检索策略内容
检索式主题: (“lithium-ion battery”)OR主题: (“li-ion battery”)
来源数据库SCI-EXPANDED, CPCI-S, CCR-EXPANDED, IC
文献类型ARTICLE OR PROCEEDINGS PAPER
语种ENGLISH
起止时间1996-2016

新窗口打开| 下载CSV


4.1 锂离子电池领域生命周期划分与主题抽取

(1) 生命周期划分

在科技文献分析中, 通常使用文献信息增长规律刻画学科领域的发展阶段, 其基本方法是文献信息统计方法。根据学科领域年度文献增长趋势, 刻画学科领域生命周期, 并对生命周期不同的阶段进行划分。

①萌芽期: 学科领域发展的初始阶段, 文献增长率较小, 研究主题单一, 文献量较少;

②成长期: 文献量持续增长, 但增长缓慢, 有新的研究主题出现, 但文献量未出现快速增长趋势;

③发展期/快速发展期: 文献量呈现较快的指数型增长, 文献增长率呈递增状态, 新的研究主题不断涌现;

④成熟期: 文献量呈缓慢增长趋势, 文献增长率进一步递减, 研究主题数量稳定, 文献量维持在一个较高水平;

⑤衰退期/转型期: 学科领域经过成熟期一般会朝两个方向发展, 一个方向是文献量递减, 没有新的研究主题出现, 文献增长率为负, 表明该学科领域正在衰退; 另一个方向是在原有学科领域中变异出新的研究方向和研究热点, 文献量进一步递增, 增长率为正, 表明该学科领域正在转型。

在实际操作中, 学科领域生命周期阶段划分一般以年度发文量为数据, 对检索周期内的年度发文量采取分段线性回归的方式, 确定每个阶段的时间窗口以及对应的文献增长率, 按照文献增长率的大小, 结合文献增长趋势综合判断学科领域发展阶段。统计锂离子电池领域每年的文献发表量, 通过拟合文献增长速率, 将锂离子电池领域发展划分为4个阶段。第一阶段(Period1)为萌芽期: 1996-2000, 第二阶段(Period2)为成长期: 2001-2005,第三阶段(Period3)为发展期: 2006-2010, 第四阶段(Period4)为快速发展期: 2011-2016。从文献增长趋势来看, 目前锂离子电池领域文献增长量越来越快, 没有出现增长衰退的迹象, 本文判断当前该领域正处于快速发展阶段。锂离子电池领域生命周期示意图如图4所示, 文献增长速率随着时间增长, 萌芽期最小, 快速发展期文献增长的速度非常快。

图4

图4   锂离子电池领域生命周期示意图


(2) 基于Perplexity-Var指标的主题数目确定

Perplexity-Var指标是结合了主题之间相似度和模型困惑度的指标, 可以综合反映LDA的主题抽取效果和模型的泛化能力, 当Perplexity-Var指标最小时, 对应的LDA 主题模型最优, 主题抽取效果最佳[17]。本文Perplexity-Var指标的计算由Python语言编写而成, 全局及各阶段主题数目与该指标的关系如图5所示。由图5(a)可以看出, 当全局主题数目设置为35时, 对应的Perplexity-Var指标最小, 因此全局主题设置为35是最优的选择。

图5

图5   锂离子电池领域全局及各阶段主题抽取数目确定


当Perplexity-Var指标由较大值衰减至较小值时, 一般会出现较为明显的拐点, 最佳主题数目往往出现在拐点附近, 且Perplexity-Var指标取最小值。

(3) 锂离子电池领域研究主题展示

经过LDA主题抽取, 所有文献构成的全局语料库共抽取主题35个, 根据专家经验和人工筛选, 从35个主题中识别出30个典型主题, 这30个典型主题也称为全局主题。全局主题将作为锂离子电池学科领域发展阶段阶段主题过滤的依据。部分全局主题的表示如图6所示(柱形图的横坐标为每个TOPIC词概率最高的前5个词, 纵坐标为主题强度值), 受篇幅所限, 这里只展示每个TOPIC的主题词(top 5)。从每个主题下的前20主题词的语义基本上可以归纳出该主题的含义。如: TOPIC5是“锂离子电池薄膜研究”, TOPIC6是“XRD分析”, TOPIC11是“静电纺丝与纳米纤维”, TOPIC14是“石墨烯纳米复合材料”, TOPIC16是“锂离子电池回收利用”, TOPIC17是“SOC估算”, TOPIC23是“混动动力系统设计”, TOPIC28是“锂离子电池热管理”。尽管每个主题的词向量基是一致的, 但是由于不同主题下主题词的概率值不同, 所以每个主题所表达的语义是不同的。TOPIC5这个主题下概率值最大的词为film, 语义为膜, 概率值为0.0699; 其次是该词的复数形式films, 概率值为0.0515; 其次是thin, 语义为薄, 概率值为0.0486, 再结合其他词如deposition、surface、electrode等, 可以很明显地推断出该主题为“锂离子电池薄膜研究”。利用LDA主题抽取的文档-主题分布矩阵可计算出主题强度值, 从图6可以看出, 根据主题强度值的大小, 在全局主题中, TOPIC22、 TOPIC6、 TOPIC10、 TOPIC14和TOPIC1等都是热点研究主题。

图6

图6   锂离子电池全局主题展示


4.2 锂离子电池领域主题语义演化分析过程

为使整个学科领域主题语义演化分析更加科学合理, 主题过滤机制的引入至关重要。本文所提主题过滤机制基于全局典型主题和主题语义相似度计算, 通过计算各阶段抽取的主题和全局典型主题之间的语义相似度, 有效去除各阶段噪音主题。根据图3所示主题过滤机制, 锂离子电池领域的主题过滤结果如表2所示。

表2   各阶段主题过滤结果

Period1TotalSimilarityPeriod2TotalSimilarityPeriod3TotalSimilarityPeriod4TotalSimilarity
TOPIC1-2TOPIC00.6967TOPIC2-0TOPIC40.6414TOPIC3-0TOPIC160.5127TOPIC4-0TOPIC200.7551
TOPIC1-6TOPIC40.6516TOPIC2-1TOPIC20.6311TOPIC3-2TOPIC90.6478TOPIC4-1TOPIC210.7117
TOPIC2-3TOPIC260.5351TOPIC3-4TOPIC190.5928TOPIC4-2TOPIC280.5770
TOPIC2-4TOPIC180.6746TOPIC3-5TOPIC130.7918TOPIC4-3TOPIC130.8123
TOPIC2-5TOPIC130.7051TOPIC3-6TOPIC200.6012TOPIC4-4TOPIC150.7438
TOPIC2-6TOPIC50.5293TOPIC3-7TOPIC170.6544TOPIC4-5TOPIC290.8251
TOPIC2-7TOPIC110.5234TOPIC3-8TOPIC230.7040TOPIC4-6TOPIC170.8359
TOPIC2-12TOPIC90.5126TOPIC3-11TOPIC20.5399TOPIC4-8TOPIC70.6125
TOPIC2-13TOPIC280.5353TOPIC3-12TOPIC270.6356TOPIC4-10TOPIC220.6173
TOPIC2-14TOPIC100.7870TOPIC3-13TOPIC60.6828TOPIC4-11TOPIC280.7419
TOPIC3-14TOPIC40.7191TOPIC4-12TOPIC00.6675
TOPIC3-15TOPIC100.8036TOPIC4-13TOPIC160.5920
TOPIC3-16TOPIC280.5894TOPIC4-14TOPIC220.7608
TOPIC3-17TOPIC290.7393TOPIC4-15TOPIC190.6163
TOPIC3-18TOPIC220.7179TOPIC4-16TOPIC220.8565
TOPIC3-19TOPIC180.8335TOPIC4-17TOPIC250.7555
TOPIC4-18TOPIC240.7675
TOPIC4-19TOPIC120.8842
TOPIC4-20TOPIC100.8262
TOPIC4-21TOPIC90.8343
TOPIC4-23TOPIC180.7892
TOPIC4-24TOPIC60.7144

新窗口打开| 下载CSV


其中, Total代表全局典型主题, Similarity表示各阶段主题与全局典型主题之间的语义相似度, 为区分全局主题和各阶段主题, 各阶段主题采用“TOPIC+阶段序号-主题序号”的表达方式, 如“TOPIC1-2”表示Period1(萌芽期)的第2个主题。主题之间的语义相似度计算采用余弦距离, 相似度阈值超过0.5的为有效主题, 低于0.5的为无效主题。表中Similarity表示各阶段主题与所有全局典型主题之间语义相似度的最大值, 所以只列出了语义相似度最大的全局典型主题, 实际上各阶段主题与全局典型主题之间语义相似度大于0.5的并非只有一个。主题之间的语义相似度是判断主题之间语义演化模式的重要参考依据, 通过计算相邻发展阶段间主题语义相似度, 并取与各主题相似度最大的前三个主题结合专家经验进行语义演化分析, 以判断相邻阶段哪些主题是新生的, 哪些主题间产生了融合、分裂以及继承等 演化模式, 并由此绘制主题语义演化图谱。锂离子电池领域语义演化图谱如图7图8所示, 其中每个TOPIC下面的主题词均用最能代表该主题语义的5个词组成。

图7

图7   锂离子电池领域主题语义演化图谱1


图8

图8   锂离子电池领域主题语义演化图谱2


锂离子电池领域各阶段新生主题数(# of new topics)、主题融合次数(# of topic merging)和主题分裂次数(# of topic splitting)如表3所示。可以看出, 该领域主题从成长期就不断产生新的主题, 并且在成长期、发展期和快速发展期, 新主题的产生个数保持稳定, 确保了该领域的研究活跃程度; 主题分裂开始于成长期, 在快速发展期主题分裂次数最多, 达到6次; 主题融合开始于发展期, 在快速发展期主题融合次数最多, 达到5次。

表3   各阶段新生主题、主题融合与主题分裂情况

Period1Perid2Period3Perid4
# of topic splitting0226
# of topic merging0015
# of new topics2776

新窗口打开| 下载CSV


图7图8可以看出, 锂离子电池领域的主题语义演化主要围绕萌芽期的两个主题TOPIC1-2(锂离子电池电极材料电化学性能研究)和TOPIC1-6(锂离子电池性能研究: 能量特性、工作特性和环境特性)展开。在成长期TOPIC1-2分裂为两个主题TOPIC2-1、TOPIC2-14, 其中锂离子电池电极材料的电化学性能研究进一步细化, 出现了专门研究正极材料和负极材料的主题。而TOPIC2-1和TOPIC2-14在发展期继续分裂成其他子主题。当然中间也产生了很多主题的融合, 例如在发展期, TOPIC2-1和TOPIC2-14发生主题交叉融合, 产生了新的研究主题TOPIC3-18, 而该主题涉及锂离子电池负极材料结构及电化学性能研究。在快速发展期, TOPIC3-15和TOPIC3-18之间发生频繁的分裂和融合, 产生了一些新的研究方向和研究方法, 如TOPIC4-4(薄膜研究), 主要是围绕锂离子电池负极材料和正极材料的电化学性能展开。

TOPIC1-6的主题语义演化相对TOPIC1-2要简单一些, 在成长期分裂为两个主题TOPIC2-0和TOPIC2-4之后便按照继承关系分为两个路径演化:

(1) 沿着动力电池性能研究这条路径, 在发展期演化为TOPIC3-8(混动汽车锂离子电池管理系统设计), 在快速发展期分裂为TOPIC4-1(高能量密度锂离子动力电池研究)和TOPIC4-17(混动汽车锂离子电池管理系统设计);

(2) 沿着锂离子电池组电路设计这条路径, 在发展期继承演化为TOPIC3-19(锂离子电池组均衡电路设计), 在快速发展期进一步继承演化为TOPIC4-23(锂离子电池组均衡电路设计)。

综上, 锂离子电池领域在发展过程中, 从两个主要的研究主题出发, 经过继承、分裂以及融合等演化模式, 在快速发展期已经形成了庞大的学科分支结构, 而本文基于LDA的主题语义演化分析方法可以将这种演化过程深度地揭示出来, 从而印证了本文方法的有效性和可行性。

5 结语

学科领域主题语义演化分析主要从微观角度对学科知识结构进行动态分析, 并且利用自然语言处理、文本挖掘等方法深入到主题的语义内容层面, 是主题演化分析方法的进一步深化。LDA主题模型经常用于主题演化分析中, 但大多停留在主题强度演化分析阶段, 在主题语义演化分析中尚存在若干问题需要解决, 如主题语义相似度计算、主题过滤和主题语义演化模式识别等问题。本文利用Web of Science的锂离子电池领域的学术文献题录数据, 对上述三个问题进行研究, 提出基于LDA的主题语义演化分析框架。在主题语义相似度计算方面, 本文提出构建全局主题词典并以此抽取阶段主题的方法, 以确保学科领域全局主题向量和学科领域各发展阶段主题向量保持变量与维度的一致性, 以确保主题语义相似度计算的准确性; 在主题过滤方面本文提出利用全局主题与阶段主题之间的相似度计算以过滤阶段无效主题, 确保在主题语义演化分析中主题语义的可靠性; 在主题语义演化模式识别方面, 主要根据学科领域各发展阶段前后主题之间语义相似度并辅以人工判断进行识别, 包括继承演化、融合演化和分裂演化三种模式。从实证分析结果来看, 利用本文方法均可识别这三种语义演化模式。

虽然本文所提基于LDA的主题语义演化分析方法在锂离子电池领域中进行了实证分析, 并初步验证了方法的可行性和有效性。但是, 在分析过程中, 学科领域全局主题是否能够涵盖各阶段主题还需要进一步验证。同时, 主题语义演化的知识图谱还需要人工绘制, 如何在本文所提主题语义演化分析框架下, 实现主题语义演化知识图谱的自动化绘制是下一步研究的重点。

支撑数据

支撑数据由作者自存储, E-mail: guanpeng1983@163.com。

[1] 关鹏, 王曰芬. Lithium-Ion-Batteries-WOS.xlsx. 锂离子电池领域原始题录文献数据.

[2] 关鹏. topic_output_mengyaqi.txt. 锂离子电池领域萌芽期主题抽取结果.

[3] 关鹏. topic_output_chengzhangqi.txt. 锂离子电池领域成长期主题抽取结果.

[4] 关鹏. topic_output_fazhanqi.txt. 锂离子电池领域发展期主题抽取结果.

[5] 关鹏. topic_output_kuaisufazhanqi.txt. 锂离子电池领域快速发展期主题抽取结果.

[6] 关鹏. topic_output_quanju.txt. 锂离子电池领域全局主题抽取结果.

[7] 关鹏. doc-topic-output-quanju.xlsx.全局文档-主题分布矩阵.

利益冲突声明

所有作者声明不存在利益冲突关系。

作者贡献声明

王曰芬: 提出研究思路, 论文最终版本修订;

关鹏: 设计研究方案, 进行实验, 起草论文;

傅柱: 采集、清洗和分析数据。

参考文献

王曰芬, 宋爽, 苗露 .

共现分析在知识服务中的应用研究

[J]. 现代图书情报技术, 2006(4):29-34.

[本文引用: 1]

( Wang Yuefen, Song Shuang, Miao Lu .

Application Study of Co-occurrence Analysis in Knowledge Service

[J]. New Technology of Library and Information Service, 2006(4):29-34.)

[本文引用: 1]

Deerwester S, Dumais S T, Furnas G W , et al.

Indexing by Latent Semantic Analysis

[J]. Journal of the American Society for Information Science, 1990,41(6):391-407.

[本文引用: 1]

郭红梅, 张智雄 .

基于图挖掘的文本主题识别方法研究综述

[J]. 中国图书馆学报, 2015,41(6):97-108.

[本文引用: 1]

( Guo Hongmei, Zhang Zhixiong .

Methods of Text Theme Identification Based on Graph Mining

[J]. Journal of Library Science in China, 2015,41(6):97-108.)

[本文引用: 1]

陈必坤, 王曰芬 .

学科结构与演化可视化分析的内容研究

[J]. 图书情报工作, 2016,60(21):87-95.

[本文引用: 1]

( Chen Bikun, Wang Yuefen .

Contents Research of Visualization Analysis of Discipline Structure and Evolution

[J]. Library and Information Service, 2016,60(21):87-95.)

[本文引用: 1]

Blei D M, Ng A Y, Jordan M I .

Latent Dirichlet Allocation

[J]. Journal of Machine Learning Research, 2003,3:993-1022.

[本文引用: 1]

Blei D M, Lafferty J D.

Dynamic Topic Models

[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.

[本文引用: 1]

Wang X,

McCallum A. Topics Over Time: A Non-Markov Continuous-Time Model of Topical Trends

[C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2006: 424-433.

[本文引用: 1]

Blei D M .

Probabilistic Topic Models

[J]. Communications of the ACM, 2012,55(4):77-84.

[本文引用: 1]

曾利, 李自力, 谭跃进 .

基于动态LDA的科研文献主题演化分析

[J]. 软件, 2014,35(5):102-107.

[本文引用: 1]

( Zeng Li, Li Zili, Tan Yuejin .

Analysis of Topic Evolution in Scientific Literature Based on Dynamic Latent Dirichlet Allocation

[J]. Software, 2014,35(5):102-107.)

[本文引用: 1]

Hassan S U, Haddawy P .

Analyzing Knowledge Flows of Scientific Literature Through Semantic Links: A Case Study in the Field of Energy

[J]. Scientometrics, 2015,103(1):33-46.

[本文引用: 1]

刘自强, 王效岳, 白如江 .

多维度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例

[J]. 中国图书馆学报, 2016,42(6):67-84.

[本文引用: 2]

( Liu Ziqiang, Wang Xiaoyue, Bai Rujiang .

Research on Visualization Analysis Method of Discipline Topics Evolution from the Perspective of Multi Dimensions: A Case Study of the Big Data in the Field of Library and Information Science in China

[J]. Journal of Library Science in China, 2016,42(6):67-84.)

[本文引用: 2]

陈伟, 林超然, 李金秋 , .

基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例

[J]. 情报学报, 2018,37(7):732-741.

[本文引用: 1]

( Chen Wei, Lin Chaoran, Li Jinqiu , et al.

Analysis of the Evolutionary Trend of Technical Topics in Patents Based on LDA and HMM: Taking Marine Diesel Engine Technology as an Example

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(7):732-741.)

[本文引用: 1]

吴菲菲, 陈肖微, 黄鲁成 , .

基于语义相似度的技术多主题演化路径识别方法研究

[J]. 情报杂志, 2018,37(5):91-96.

[本文引用: 1]

( Wu Feifei, Chen Xiaowei, Huang Lucheng , et al.

Multi-thematic Evolution of Technology Based on Semantic Similarity

[J]. Journal of Intelligence, 2018,37(5):91-96.)

[本文引用: 1]

曲佳彬, 欧石燕 .

基于主题过滤与主题关联的学科主题演化分析

[J]. 数据分析与知识发现, 2018,2(1):64-75.

[本文引用: 1]

( Qu Jiabin, Ou Shiyan .

Analyzing Topic Evolution with Topic Filtering and Relevance

[J]. Data Analysis and Knowledge Discovery, 2018,2(1):64-75.)

[本文引用: 1]

张金柱, 吕品 .

基于主题关联度改进的主题演变和突变分析

[J]. 情报理论与实践, 2018,41(3):129-135.

[本文引用: 1]

( Zhang Jinzhu, Lv Pin .

Topic Evolution and Mutation Analysis Based on Improved Topic Correlation Method

[J]. Information Studies: Theory & Application, 2018,41(3):129-135.)

[本文引用: 1]

Palla G, Barabási A L, Vicsek T .

Quantifying Social Group Evolution

[J]. Nature, 2007,446(7136):664-667.

[本文引用: 1]

关鹏, 王曰芬 .

科技情报分析中LDA主题模型最优主题数确定方法研究

[J]. 现代图书情报技术, 2016(9):42-50.

[本文引用: 2]

( Guan Peng, Wang Yuefen .

Identifying Optimal Topic Numbers from Sci-Tech Information with LDA Model

[J]. New Technology of Library and Information Service, 2016(9):42-50.)

[本文引用: 2]

/