Advanced Search
数据分析与知识发现, 2018, 2(10): 54-64
doi: 10.11925/infotech.2096-3467.2018.0196
基于动态主题模型的时间窗口划分研究*
Dividing Time Windows of Dynamic Topic Model
王婷婷, 王宇, 秦琳杰

摘要:

【目的】为解决动态主题模型时间窗口的自主划分问题, 提出基于动态自适应时间窗口划分的DIM模型。【方法】通过传统的LDA主题模型和词向量模型对文本语料进行量化; 构建反映时间窗口间差异性和时间窗口内相似性的综合指标; 基于该指标构建自适应时间窗口划分的DIM模型, 并针对“一带一路”国际合作高峰论 坛的新闻语料进行实证研究。【结果】基于动态自适应时间窗口划分的DIM模型能够迅速、有效地划分时间窗口, 不但保证了不同窗口下主题间的可比性, 还能够对文档的影响因素进行评价。【局限】时间窗相似度综合指标基于传统LDA模型构造, 也可采用LDA族类的其他模型进行改进。【结论】新模型具有自适应划分时序文本的能力, 是对传 统动态主题模型的一种有效改进。

关键词: 动态主题模型 ; 自适应时间窗口 ; DIM ; 影响因素 ; 文本扩充

Abstract:

[Objective] This paper proposes a Document Influence Model (DIM) based on Dynamic Automatic Time, aiming to solve the time window dividing issue of dynamic topic model. [Methods] Firstly, we processed the text corpora with the traditional LDA model and word vector model. Secondly, we constructed a comprehensive index reflecting the differences between time windows and similarity within the time windows. Finally, we built a new model based on this index and conducted an empirical study with news corpus of the “Belt and Road” International Cooperation Summit Forum. [Results] The proposed model could quickly and effectively divide the time windows, which not only ensured the comparability of the topics under different windows, but also evaluated the influence factors of the document. [Limitations] We built the similarity index of time windows based on the traditional LDA model, which could be improved by the latest LDA models. [Conclusions] The new model is able to divide the time series text effectively, which improves the performance of traditional dynamic topic model.

Key words: Dynamic Topic Model ; Adaptive Time Window ; DIM ; Influence Factor ; Text Expansion

1 引 言

随着信息技术的飞速发展以及互联网普及率的提升, 各种类型的网络数据量激增。面对海量数据, 如何有效提取内部信息和潜在模式, 是一个十分有意义的命题。在非传统意义下的数据模式中, 文本数据的内容和规模都占据较大的比重, 大量的信息、情绪等都通过文本的方式生成和传播。因此, 人们对于文本数据的挖掘研究工作产生了强烈的需求。其中, 主题模型就是一种有效的文本数据分析工具, 可以在大规模的文本数据中, 通过主题分布表达一个数据集内部的特征信息。它不但解决了“维数灾难”问题, 又进一步挖掘了整个文本集的潜在模式, 极大简化了人们理解信息的时间成本。最为主流的模型是由Blei等[1]提出的LDA模型(Latent Dirichlet Allocation)。该模型通过贝叶斯结构对语料内部隐含的主题进行建模, 最终达到主题提取与分类的目的。当然, LDA模型也可以作为文本挖掘过程中的降维工具, 为后续更深入的分析提供良好的前期准备。正是由于其优良的数理基础以及拓展应用的友好性, 该模型在文本数据挖掘的处理中获得较高的关注度, 基于此所展开的应用成果也层出不穷。

但是, 随着时代的发展, 人们对于文本数据的信息要求越来越高, 已经不满足于静态时间下对大规模数据信息主题的提取。“时间”作为一个文本数据极为重要的标签, 不应该在模型中被忽略。在日常生活中, 文本的时间属性尤为重要, 它反映了当下的信息情况, 并且深刻影响着后期信息的发展。而原有模型假设语料集中所有文档之间具有顺序无关性, 这意味着传统LDA模型并没有将文档的时间作为标签进行考虑, 但现实情况是文本主题在时间序列趋势下不断演化。所以, 不宜采用原有传统的静态观点进行分析, 需要有一个性质较好的动态LDA主题模型来刻画时序文本的主题趋势。

2 文献综述

面对现实生活中越来越多的时序化文本, 动态主题模型能够更好地刻画现实世界, 因此有关处理这类问题的动态主题模型也受到广泛的关注, 在学术界已经存在部分相关研究成果。所有动态主题模型的共性在于将文本语料的时间标签纳入考察范围, 解决了传统LDA模型对语料时间信息处理方面的不足。这类模型根据对“时间”处理方式的不同, 可以分为两 类[2]: 一类将时间看作连续分布, 进而对连续时间进行建模。此类方法的重点在于确定分布函数的形式以及目标函数的算法; 另外一类方法则是将时间离散化, 划分特定的时间窗口。这类方法在每一个时间窗内的模型参数保持独立性, 因此建模的重点在于时间窗口的划分和各个窗口内部模型的参数选择。

第一类中比较有代表性的是TOT(Topic Over Time)主题抽取模型, 由Wang等[3]在LDA模型基础上提出。这种服从连续分布的参数假定方法的确能够刻画时序文本下主题的动态演化, 但也存在一些问题。Ding等[4]指出TOT模型假设每个时间窗内的主题数目恒定, 这种假设带来的问题是仅能对主题强度的变化趋势进行刻画, 而忽略其内容变化。此外, 时间窗口内的主题由于限定了数目, 受到被动地合并和分割, 从而导致其主题演化趋势划分结果的精度欠佳。在面对时间变化频繁的大规模语料时, 该模型对计算机资源消耗较大, 计算效率相对较低, 故该模型的应用程度较低。

第二类方法的典型代表是DTM, 针对TOT模型在主题内容刻画上的缺陷, LDA模型的原作者Blei等[5]提出动态主题模型(Dynamic Topic Model, DTM)。该模型接受了文本的时间信息, 并将数据按时间顺序、以相同的时间窗宽进行划分, 在此基础上按照传统静态LDA模型的思想进行主题分析。该模型是处理时序文本的有力工具, 其刻画主题动态演变的能力较强。Derntl等[6]采用动态主题模型对教育数据进行分析。Ha等[7]也通过动态主题模型研究用户对智能手表的看法。DTM在国内也受到一些学者的追捧, 曹丽娜等[8]采用DTM对2012年天涯杂谈版块下的发帖进行动态话题链的挖掘及其可视化分析;齐亚双等[9]通过DTM对国内外相关领域的核心期刊的数据进行分析。

由于DTM应用的广泛性, 不乏学者在此基础上进行各方面的改进。蒋卓人等[10]在传统DTM基础上, 提出有监督的动态主题模型S-DTM。该模型通过添加标签, 提高了主题的解释力, 利用期刊语料进行实验, 发现新模型具有更精确地掌握话题结构和主题词分布动态演化的能力。李超雄等[11]针对情感演化分析的空白, 提出动态主题情感混合模型(DTSCM), 实证分析表明该方法对情感分类的准确率较高且能刻画情感演化途径。李慧等[12]在传统DTM基础上, 加入“文本-主题-情感-词” 4层结构构建动态情感主题模型。

以DTM为代表的第二类模型是基于人为划分的时间窗口, 在时序文本的窗口划分方面显得过于主观和机械, 甚至会影响整个模型的主题建模。即使上述改进模型, 在每一个时间窗口内仍然选用传统LDA模型进行主题分析, 也并没有改变动态时间窗口的划分实质, 由此建模得到的主题演变模型并没有在真正意义上考虑时间因素。

综上, 本文针对传统DTM类模型人为等距分割时间窗口的不足, 选择使用DIM模型(Document Influence Model)[13]进行文本主题建模。该模型不但可以刻画时间趋势, 还可以赋予主题时间演变路径以及文档影响因素评价情况, 这也是传统LDA模型无法做到的。本文尝试在传统DIM基础上进行部分改进, 以追踪时序文本数据的主题动态演化特征。因此, 本文通过构造相邻时间窗口的主题差异性, 以及窗口内部内容一致性的综合指标, 设计自动分割时间窗口的算法, 在此基础上提出基于动态自适应时间窗口划分的DIM (Dynamic Automatic Time Selected-Document Influence Model, DATS-DIM), 用于获取更加合理的时间窗口划分边界和动态主题演化, 从而达到对传统动态主题模型的改进。

3 基于动态自适应时间窗口划分的DIM
3.1 DIM

DIM是在DTM基础上发展而来的一种动态主题模型, DTM作为动态主题模型的基础, 许多研究成果都是基于DTM的优化和衍生。原始LDA模型未考虑文档的时间属性, 这对时序文本的分析极为不利, 因此DTM应运而生, 将文档通过人为指定的恒定窗宽进行分割, 并针对每个窗口内的语料求主题。传统LDA模型中的Dirichlet分布无法适应于时序模型, 则令βt,k为主题k在时间窗口t内的自然参数, 设定其条件分布如公式(1)[5]所示。

${{\beta }_{t,k}}|{{\beta }_{t-1,k}}\tilde{\ }N({{\beta }_{t-1,k}},{{\sigma }^{2}}I)$ (1)

文档-主题分布${{\alpha }_{t}}$的分布如公式(2)[5]所示。

${{\alpha }_{t}}|{{\alpha }_{t-1}}\tilde{\ }N({{\alpha }_{t-1}},{{\delta }^{2}}I)$ (2)

由于人为划分了时间窗口, 因此其逻辑图如图1[5] 所示。

图1 DTM逻辑图

其后验分布如公式(3)[5]所示。

$\begin{align} & \prod\limits_{k=1}^{K}{q({{\beta }_{k,1}},\cdot \cdot \cdot ,{{\beta }_{k,T}}|{{{\overset{\scriptscriptstyle\frown}{\beta }}}_{k,1}},\cdot \cdot \cdot ,{{{\overset{\scriptscriptstyle\frown}{\beta }}}_{k,T}})}\times \\ & \prod\limits_{t=1}^{T}{\left( \prod\limits_{d=1}^{{{D}_{t}}}{q({{\theta }_{t,d}}|{{\gamma }_{t,d}})\prod\nolimits_{n=1}^{{{N}_{t,d}}}{q({{z}_{t,d,n}}|{{\varphi }_{t,d,n}})}} \right)} \\ \end{align}$ (3)

目标函数为最大化全时间窗内文档出现的概率对数, 根据Jensen不等式可知其表达式如公式(4)所示。

$\begin{align} & \log p({{d}_{1:T}})\ge \int{q({{\beta }_{1:T}}|{{{\overset{\scriptscriptstyle\frown}{\beta }}}_{1:T}})}\log \left( \frac{p({{\beta }_{1:T}})p({{d}_{1:T}}|{{\beta }_{1:T}})}{q({{\beta }_{1:T}}|{{{\overset{\scriptscriptstyle\frown}{\beta }}}_{1:T}})} \right) \\ & \overset{{}}{\mathop {}}\,\overset{{}}{\mathop {}}\,\overset{{}}{\mathop {}}\,={{\epsilon }_{q}}\log p({{\beta }_{1:T}})+\sum\limits_{t=1}^{T}{{{\epsilon }_{q}}\log p({{d}_{t}}|{{\beta }_{t}})}+H(q) \\ \end{align}$(4)

DIM是在DTM的基础上考虑了前期文档对后期文档的影响因素。该模型假设每篇文档dt都被赋予一个服从正态分布的影响因子得分ld, 用以量化文档在各个主题上的影响, 影响因子得分越高, 文档用词对主题演化的影响越大。DIM针对公式(1)进行改进, 其形式如公式(5)[13]所示。

$\begin{align} & {{\beta }_{t,k}}|{{\beta }_{t-1,k}},{{(w,l,z)}_{t-1,1:D}}\tilde{\ }N({{\beta }_{t-1,k}}+ \\ & \exp (-\beta _{t-1,k}^{{}})\sum\nolimits_{d}^{{}}{{{l}_{d,k}}}\sum\nolimits_{n}^{{}}{{{w}_{d,n}}{{z}_{d,n,k}},}{{\sigma }^{2}}I) \\ \end{align}$ (5)

其中, zd,n,k表示第d篇文档中第n个词所在的第k个主题, D为语料库的维度。由于考虑前期文本对后期文本的影响因素, 其逻辑图如图2[13]所示。

图2 传统DIM逻辑图

综上, DIM通过定义每篇文档的影响因子为这篇文档的用词对于未来同属于该主题文档用词频率的影响, 引入影响因子这一概念刻画前期文档对后期文档的影响。但传统的DIM与DTM一样, 虽然考虑了时间窗口但该窗口均是人为划分, 一般都是根据语料特征按星期、月等固定的时间窗口进行机械切割, 未参考时间窗内部以及窗口之间内容的相关性。这种方法并没有完全考虑到语料的动态演化特征, 切割方式过于武断。因此本文在DIM的基础上加入自适应时间窗口的划分, 提出基于动态自适应时间窗口划分的DIM。一方面克服人为指定窗口的机械性, 提高对动态语料时间窗口的切割精度, 一方面获取文档的影响因素得分, 能够提供更详实的语料分析结果。

3.2 窗口相似性指标F的构建

对于时间窗口间和时间窗口内的相似性都是基于各自内容所构建的LDA模型展开, 将问题转换成如何评判两个LDA主题模型间的差异性, 以及如何评判其训练语料的内部相似性问题。

(1) 时间窗口间的差异性指标

首先, 选取两个LDA主题模型各自主题下的前10个主题词$(w_{i1}^{ld{{a}_{j}}},w_{i2}^{ld{{a}_{j}}},\cdot \cdot \cdot ,w_{i10}^{ld{{a}_{j}}})$, 其中j=t, t+1, 表示相邻时间窗口的LDA主题模型, i=1,2,···,K表示主题数, 通过词向量模型得到各主题词对应的词向量$v_{iq}^{ld{{a}_{j}}}$, 其中q=1,2,···,10表示前10个主题词, 由公式(6)得到各主题向量$\bar{V}_{i}^{ld{{a}_{j}}}$。

$\bar{V}_{i}^{ld{{a}_{j}}}=\sum\limits_{q=1}^{10}{v_{iq}^{ld{{a}_{j}}}}/10$ (6)

由此可得两个LDA主题模型各自的主题向量:

$\bar{V}_{\text{1}}^{ld{{a}_{j}}},\ \bar{V}_{\text{2}}^{ld{{a}_{j}}},\cdot \cdot \cdot ,\bar{V}_{i}^{ld{{a}_{j}}},\cdot \cdot \cdot ,\bar{V}_{K}^{ld{{a}_{j}}}$

其次, 分别计算两个LDA主题模型各自主题向量间的余弦相似度, 主要思路和流程为: 计算所有向量间的余弦相似度; 选取两两对应向量间的最大余弦值保留, 记为$\cos _{{{\max }_{1}}}^{ld{{a}_{t}}ld{{a}_{t+1}}}$; 选取余弦值后, 除去其余向量与这两个向量的余弦值, 不予考虑, 再从剩余值中寻找最大值, 以此类推。则得到一组K维向量, 为LDAtLDAt+1两个模型之间的特征相似向量:

$\begin{align} & Ve{{c}_{lda}}=[\cos _{{{\max }_{1}}}^{ld{{a}_{t}}ld{{a}_{t+1}}},\cos _{{{\max }_{2}}}^{ld{{a}_{t}}ld{{a}_{t+1}}},\cdot \cdot \cdot , \\ & \ \ \ \ \ \ \ \ \ \ \ \ \cos _{{{\max }_{q}}}^{ld{{a}_{t}}ld{{a}_{t+1}}},\cdot \cdot \cdot ,\cos _{{{\max }_{k}}}^{ld{{a}_{t}}ld{{a}_{t+1}}}{{]}^{\mathrm{T}}} \\ \end{align}$

最后, 确定时间窗口t与时间窗口t+1之间的差异性指标Fdif, 如公式(7)所示。

${{F}_{dif}}=\frac{K}{\sum\limits_{q=1}^{K}{\cos _{{{\max }_{q}}}^{ld{{a}_{t}}ld{{a}_{t+1}}}}}$ (7)

(2) 时间窗口内的相似性指标

首先, 构建“文档-主题”概率分布矩阵, 记为Wtopic, 如公式(8)所示。

${{W}_{topic}}=\left[ \begin{matrix} p_{{{d}_{1}}}^{1} & p_{{{d}_{1}}}^{2} & ... & p_{{{d}_{1}}}^{K} \\ p_{{{d}_{2}}}^{1} & p_{{{d}_{2}}}^{2} & ... & p_{{{d}_{2}}}^{K} \\ ... & ... & ... & ... \\ p_{{{d}_{n}}}^{1} & p_{{{d}_{n}}}^{2} & ... & p_{{{d}_{n}}}^{K} \\\end{matrix} \right]$ (8)

其中, dn表示时间窗口内的第n篇文档dn, k表示主题个数。再由LDA主题模型对应的主题、主题词结合词向量模型, 利用公式(6)得到LDA模型的各主题向量, 如公式(9)所示。

${{V}_{topic}}={{[\overline{V}_{1}^{lda},\overline{V}_{2}^{lda},\cdot \cdot \cdot ,\overline{V}_{i}^{lda},\cdot \cdot \cdot ,\overline{V}_{K}^{lda}]}^{\mathrm{T}}}$ (9)

其次, 利用Vtopic, Wtopic构建加权主题向量矩阵, 记为VW, 如公式(10)所示。

${{V}_{W}}=\left[ \begin{matrix} \overline{V}_{1}^{lda}\cdot p_{{{d}_{1}}}^{1}+\overline{V}_{1}^{lda}\cdot p_{{{d}_{2}}}^{1}+\cdot \cdot \cdot +\overline{V}_{1}^{lda}\cdot p_{{{d}_{n}}}^{1} \\ \overline{V}_{2}^{lda}\cdot p_{{{d}_{1}}}^{2}+\overline{V}_{2}^{lda}\cdot p_{{{d}_{2}}}^{2}+\cdot \cdot \cdot +\overline{V}_{2}^{lda}\cdot p_{{{d}_{n}}}^{2} \\ \cdot \cdot \cdot \\ \overline{V}_{K}^{lda}\cdot p_{{{d}_{1}}}^{K}+\overline{V}_{K}^{lda}\cdot p_{{{d}_{2}}}^{K}+\cdot \cdot \cdot +\overline{V}_{K}^{lda}\cdot p_{{{d}_{n}}}^{K} \\\end{matrix} \right]$ (10)

对相似度进行加权有助于更精确和客观地反映两者的相似情况。

最后, 计算其两两对应的余弦值$\cos _{ij}^{weight}$, 得到最终的时间窗口内的相似性指标Fsim, 如公式(11) 所示。

${{F}_{sim}}=\frac{\sum{\cos _{ij}^{weight}}}{C_{K}^{2}}$ (11)

Fsim表示时间窗口内的相似性, Fsim越大则表明窗口内的文档相似性越大。

(3) 时间窗相似度综合指标

对时间窗口进行分割的基本原则同聚类算法思想类似, 相邻窗口间的差异性较大, 各自窗口内的文本相似度较高, 因此综合指标的构建充分考虑上述两点, 其表达式如公式(12)所示。

$F=\frac{1}{F_{sim}^{{}}+{{F}_{dif}}}$ (12)

显然FFsimFdif负相关。F值越小表示相邻两个窗口的差异性越大, 且内部相似性越好, 因此说明相邻窗口的划分越合理。

4 实证分析
4.1 数据说明

选取2017年5月1日-2017年5月31日人民网关于“一带一路”及“海上丝绸之路”的文本数据共计390条。考虑到“一带一路”命题具有深刻而广泛的影响力, 涉及经济、文化、外交、能源等多个领域, 涵盖中国和世界多个国家和地区, 因此, 有关“一带一路”的新闻语料若仅仅通过关键词“一带一路”和“海上丝绸之路”进行提取, 会忽略那些在行文中未提到“一带一路”, 但却和它密切相关的内容, 比如“亚投行”、“沿线国家基础设施建设”、“对外贸易”等方面。即关于该主题的新闻数据有两种类型: 一种为显性语料, 文档中本身含有表明其属性的词汇; 另一种则为隐性语料, 文本同样也是围绕目标主题, 但文档内容并未包含爬取文本语料所采用的关键词。基于上述考虑, 采用词嵌入的方法, 通过语义识别和匹配, 首先扩充原始数据, 再进行实证分析, 即: 选用扩展后的新闻数据。具体方法是首先针对5月份的全体语料训练LDA模型, 将各个文档的主题概率分布作为特征向量; 其次计算待测算文本与目标文本的余弦相似度, 设定入选标的值为0.99, 大于该值的文档作为扩充文本入选。经扩充, 文本数量达到1 053条。全体新闻、“一带一路”相关以及扩充数据的新闻量分布如图3所示。

图3 新闻数量的时间序列分布及其比重

图3可以看到, 新闻的总体数量呈周期式发展。每逢周日数量较少。就“海上丝绸之路”和“一带一路”数据而言, 除了周期式发展外, 在5月20日之后出现下降, 意味着一个新闻节点周期的结束。从两类新闻文本数据占全体新闻量的比重发现, 在论坛会议前后, 该类新闻的相对数量占据绝对优势。

4.2 动态时间窗口的算法与实现

关于动态窗口的划分是本文研究重点之一, 动态时间窗口划分的主要流程包括:

(1) 确定迭代模型: 选取模型用于自适应窗口分割, 本文选用传统LDA模型, 主要通过LDA主题模型对窗口内的文本进行建模, 发现窗口内文本的隐含主题, 通过进一步分析模型揭示窗口内文本的深层信息, 也为确定时间窗口的分割方式提供依据。

(2) 确定时间窗口分割方式: 本文实证部分是对新闻文本进行时间轴上的非等距分割, 依据是前文所构造的时间窗相似性指标F。其算法步骤如图4所示。

图4 动态窗口划分模型训练流程

时间窗口的划分过程如下:

①设定模型的全局参数、初始相邻时间窗$({{t}_{1}}^{\prime },{{t}_{a}})$和$({{t}_{a+1}},{{t}_{b}}^{\prime })$。初始设定${F}'$为某极大值, 构建$S_{{{t}_{1}}}^{{{t}_{a}}}$与$S_{{{t}_{a+1}}}^{{{t}_{b}}}$;

②令$S_{{{t}_{1}}}^{{{t}_{a}}}$与$S_{{{t}_{a+1}}}^{{{t}_{b}}}$为样本段时间窗口, 并分别对$S_{{{t}_{1}}}^{{{t}_{a}}}$与$S_{{{t}_{a+1}}}^{{{t}_{b}}}$内的文档训练LDA主题模型;

③通过LDA主题模型以及词向量模型, 构建$({{t}_{1}},{{t}_{a}})$窗口内相似度$F_{sim}^{({{t}_{1}},{{t}_{a}})}$以及窗口间差异性Fdif , 并最终构建窗口相似性指标F;

④若F<${F}'$, 说明F值收敛, 确认该步骤的时间窗(t1,ta)和(ta+1,tb)独立, 再判断tb是否达到时间上限tmax, 若达到则停止, 若未达到则进入下一段相邻时间窗$S_{{{t}_{b}}}^{{{t}_{c}}}$和$S_{{{t}_{c+1}}}^{{{t}_{d}}}$, 再次返回步骤②; 否则, F不收敛, 令${F}'=F$, 对$S_{{{t}_{1}}}^{{{t}_{a}}}$与$S_{{{t}_{a+1}}}^{{{t}_{b}}}$增加一单位最小时间窗X可得$S_{{{t}_{1}}}^{{{t}_{a}}+x}$与$S_{{{t}_{a+1}}\text{+}x}^{{{t}_{b}}}$, 再次执行步骤 ②完成相似度判别。

(3) DATS-DIM的实现: 通过上述步骤得到时间窗的划分结果后, 作为动态模型DIM的时间窗分割参数输入DIM, 并进行模型训练。基于动态自适应时间窗口划分的DIM(DATS-DIM)简要算法流程如下。其参数估计部分略,详见参考文献[11]。

①对于所有含时间序列标签的文本:

1)构建LDA模型并计算F值;

2)通过自适应迭代算法划分时间窗口;

②对每个主题k=1,···,K:

生成自然参数:${{\beta }_{t,k}}|{{\beta }_{t-1,k}},{{(w,l,z)}_{t-1,1:D}}\tilde{\ }$$N({{\beta }_{t-1,k}}+$

$\exp $$(-\beta _{t-1,k}^{{}})\sum\nolimits_{d}^{{}}{{{l}_{d,k}}}\sum\nolimits_{n}^{{}}{{{w}_{d,n}}{{z}_{d,n,k}},}{{\sigma }^{2}}I)$

③对每篇文档dt:

1)用LDA模型生成所有t窗口内的文档主题参数${{\beta }_{t}}$;

2)对于每个主题k=1,···,K, 生成文档影响因素${{\overset{\to }{\mathop{l}}\,}_{d,k}}\text{ }\!\!\tilde{\ }\!\!\text{ }N(0,\sigma _{l}^{2}\iota )$。

4.3 基于DATS-DIM模型的实证分析

(1) 动态自适应时间窗口划分

针对动态自适应时间窗口划分的DIM, 设置初始参数如下: 起始日期t1: 20170501; 终止日期tmax: 20170531; 初始窗宽${{t}_{b}}^{\prime }-{{t}_{1}}^{\prime }$: 7; 步长X: 3; ${F}'$初始值: 0.35, 自适应窗口算法所得结果如表1所示。

表1 动态自适应时间窗口的划分结果

表1可以看出, 2017年5月份共31天的舆情被自动分割为8个窗口, 其中最小窗宽为2天, 最大窗宽为6天。其余窗宽3天、4天、5天不等。由于5月14-15日在中国北京举办了“一带一路”国际合作高峰论坛。这是“一带一路”战略提出以来, 规格最高的论坛活动。论坛邀请130个国家的1 500余名世界范围内的代表, 其中包括29位国家元首、3位国际组织负责人, 并有4 000多名来自世界各地的记者对此次论坛进行报道。这次论坛的重要性和广泛性决定了其较高的关注度, 这也是本文选取该时段进行舆情动态分析的原因。从实证结果可以看到, 几个比较特殊的窗口5月11日-5月13日正好是“一带一路”高峰论坛前期的舆论高峰, 而5月14日-5月18日则是峰会进行时以及会后的舆论高峰期, 而其后则是一段舆论冷淡期, 这个划分与主观常识的判断较为一致, 但其给出了较好的量化标准, 相较于纯粹的人为划分更有依据。说明该模型的动态时间窗口的划分能力较强, 结果具有说服力。

(2) DATS-DIM的动态主题演变

由自适应窗口划分算法得到的结果作为输入参数, 将扩展后的新闻文本数据作为建模数据, 构建DATS- DIM, 共获得5个主题, 相较前人的方法, 这种思路让不同窗口下的主题具有可比性。在DIM主题模型的主题演变结果中主要选取“一带一路”相关主题进行分析, 即为Topic1和Topic4, 为了与其他主题进行比较, 在非“一带一路”主题中选取Topic0。动态主题模型的演化分为两个方面, 一个是主题词顺序的变化, 另一个是主题词概率值的时间演化。在此针对8个窗口的前12个主题词进行分析, 如表2所示。

表2反映了Topic0的8个不同时间窗口下的Topic-Word矩阵信息, 包括主题词及其概率值分布情况。前3个主题词的排序始终没有改变, 而其他部分主题词的位次发生了变化。此外, 随着时间即窗口的移动, 每个窗口下的主题词对应的概率值也会发生相应的变化, 此变化可以看成主题的内涵随着时间推移所导致的侧重点有所不同。根据主题词的概率值可以考察其在8个窗口下概率值的变化情况, 以发现该主题词在主题下的明确程度。下面考察Topic1和Topic4的动态变化, 如表3表4所示。

表2 Topic0的Topic-Word结果

表3 Topic1的Topic-Word结果

表4 Topic4的Topic-Word结果

表3表4所示, Topic1和Topic4是关于“一带一路”主题, 上述两个主题虽然都与“一带一路”有关, 却各自有不同的侧重点, 前者侧重于围绕5月14日召开的国际合作高峰论坛会议, 而后者则偏向于“一带一路”战略的建设问题, 前者具有针对性和时效性, 而后者具有深刻性和长期性。与Topic0所不同的是, 在两个“一带一路”主题内部的主题词顺序并没有发生改变, 且概率排名靠前的词汇其概率值的动态演化过程均表现为增长趋势。说明这两个话题具有较好的稳定性和集中度。结合前文分析, 5月20日之后关于“一带一路”主题的新闻数量出现下降趋势, 说明后期窗口内的报道更加切近“一带一路”主题。而在会议召开前夕、会中以及会后较短的一段时间内则侧重于会议信息的直接传达和播报, 主题更加分散。

(3) DATS-DIM的影响因子分析

通过以上实证分析, 可以较为清晰地反映出5月份关于“一带一路”和“海上丝绸之路”相关文本的舆情走势, 以下将针对DATS-DIM模型的影响因子结果进行分析。本文将每日新闻的影响因子进行加总, 构建日影响因子指标, 从时间层面反映前期对后期的影响, 传统主题模型无法追踪文本的影响因子, 因此这也是本文的亮点之一。在此仅考察Topic1和Topic4下的主题影响因素, 针对Topic1和Topic4的日影响因子如图5所示。可以看到, 针对Topic1: 5月上旬的报道对主题的影响较大, 5日左右的时间段, 报道的影响力下降显著, 此处应该是周末报道量较少的原因所导致。15日附近的时间值得关注, 在这个时间点的新闻数量不多, 但其相对于会议的前后影响力较高, 这可以在一定程度上说明, 会议期间的报道具有显著的影响力。而在5月下旬, 随着会议的结束以及一个新闻热点的趋缓, 后续报道对于主题的影响受限。对于Topic4而言, 其影响力趋势与Topic1类似, 同样在15日前后克服了时间以及新闻量不足的劣势, 反而对后期表现出较高的影响力, 这更进一步说明此次会议对“一带一路”战略的影响力大小。而后期影响力逐渐趋于衰弱, 符合新闻事件“宣传-发生-结束”的普遍规律。

图5 “一带一路”主题的影响因素

(4) DATS-DIM效果评价

本文采用后验概率的对数似然函数作为评价指 标[5], 对DATS-DIM和传统DIM的效果进行评价, 如公式(13)所示。

$\log p({{d}_{1:T}})={{\epsilon }_{q}}\log p({{\beta }_{1:T}})+\sum\limits_{t=1}^{T}{{{\epsilon }_{q}}\log p({{d}_{t}}|{{\beta }_{t}})}+H(q)$ (13)

对数似然函数的值越大, 表明在时间窗内文档出现的概率越大, 模型效果越好。公式(13)中各个变量表征见3.1节, 此处不赘述。由于DATS-DIM的时间窗口划分方式是根据时序文本内容设置算法自主迭代生成, 而传统DIM则是机械式地等距分割, 因此无法直接对比每个窗口下的评价指标。在此则考虑对DATS- DIM与按周划分的DIM进行多次试验, 对比其整体后验概率指标。为了便于直观比较, 以负对数似然函数作为纵坐标, 试验次数作为横轴, 结果如图6所示。

图6 模型效果对比

由于目前纵轴是负对数似然函数, 因此取值越小表示模型效果越好。显然图6中DATS-DIM的后验概率指标得分始终低于传统的DIM, 说明前者表现优于后者。这意味着DATS-DIM针对时间序列型文本数据, 能更好地寻找事件衍变的时间窗口, 这种划分方法要优于对文本在特定自然窗口下进行切分的DIM模型。

5 结 论

网络舆情文本数据的时间序列属性在文本内容的演化方面起着重要作用, 而传统的主题模型将文本数据视为可以互换位置的等价语料, 完全忽略了每篇文本自身的时间序列属性, 这样的做法能够找出主题-词的分布特征, 但忽略了主题的演化特征。应用较为广泛的DTM虽然将文本的时间序列属性纳入考核对象, 但其针对时间窗口的划分方式显得过于机械和武断。本文正是针对该问题, 通过模型的理论与实践总结本文的工作具有以下意义:

(1) 基于DATS-DIM的动态主题演化分析与识别技术, 通过对综合指标的设计、初始值的设置与计算机循环迭代运算, 能够迅速有效地划分含有时间标签文本序列的时间窗口。相比传统DTM对时间窗口的等距分割, 更加灵活合理、更切合用户对时序文本的分析需求, 能够更好地把握时间序列文本主题内容的演化。

(2) 将动态窗口的信息作为先验信息引入DATS- DIM, 并进行模型训练, 可以获取主题的动态演化趋势及其影响因素。一方面改变前人针对每个时间窗口训练模型的方法, 使得各个窗口之间的主题内容演化具有对比性。另一方面, 通过DATS-DIM获取了传统主题模型无法得到的影响因素指标, 对主题的分析和挖掘则更具深意。

此外, 时间窗相似度评价指标F的设置和计算, 首先基于对文本数据的数量化结果, 本文对文本语料的量化采用的是传统LDA模型。目前针对文本数据的量化和降维, 已有基于传统LDA模型的改进模型, 因此可以考虑在此阶段采用更为先进的模型 进行量化工作, 这将有益于后期时间窗口划分的精确性。

作者贡献声明:

王婷婷: 提出研究思路, 设计研究方案, 模型构建;

秦琳杰: 数据搜集, 研究综述梳理;

王宇: 模型实现, 数据分析;

王婷婷, 王宇: 起草论文, 完成实验;

王婷婷, 秦琳杰: 论文最终版本修订。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自储存, E-mail: wantting62@126.com。

[1] 王婷婷, 秦琳杰, 王宇. 原始数据.rar. 原始数据.

[2] 王婷婷, 王宇, 秦琳杰. 清洗后的数据.rar. 清洗数据.

[3] 王婷婷, 王宇, 秦琳杰. DATS-DIM实证数据.rar. 实证数据.

参考文献

[1] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[本文引用:1]
[2] 廖君华, 孙克迎, 钟丽霞. 一种基于时序主题模型的网络热点话题演化分析系统[J]. 图书情报工作, 2013, 57(9): 96-102, 118.
<p>设计基于网络数据的时序主题演化系统Hot Topics Analysis System(HTAS),实现网络热点话题数据源自动定制、自动获取和自动存储。针对中文话题分析,HTAS集成了Google的开源分词系统IKAnalyzer,批量处理中文文档。采用LDA模型对网络热点话题主题进行提取,并利用时间标签发现热点话题,通过图标形式可视化展示其演化规律。通过&quot;钓鱼岛事件&quot;的实验证明,HTAS系统能快速获取、存储网络热点话题,并能有效地分析其演化趋势。</p>
DOI:10.7536/j.jssn.0252-3116.2013.09.016      Magsci     URL     [本文引用:1]
(Liao Junhua, Sun Keying, Zhong Lixia.Study on a Hot Topic Analysis System Based on Time Sliced Topic Model[J]. Library and Information Service, 2003, 57(9): 96-102, 118.)
[3] Wang X R, McCallum A. Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2006: 424-433.
[本文引用:1]
[4] Ding W, Chen C.Dynamic Topic Detection and Tracking: A Comparison of HDP, C-word, and Cocitation Methods[J]. Journal of the Association for Information Science & Technology, 2014, 65(10): 2084-2097.
ABSTRACT Cocitation and co-word methods have long been used to detect and track emerging topics in scientific literature, but both have weaknesses. Recently, while many researchers have adopted generative probabilistic models for topic detection and tracking, few have compared generative probabilistic models with traditional cocitation and co-word methods in terms of their overall performance. In this article, we compare the performance of hierarchical Dirichlet process (HDP), a promising generative probabilistic model, with that of the 2 traditional topic detecting and tracking methods ocitation analysis and co-word analysis. We visualize and explore the relationships between topics identified by the 3 methods in hierarchical edge bundling graphs and time flow graphs. Our result shows that HDP is more sensitive and reliable than the other 2 methods in both detecting and tracking emerging topics. Furthermore, we demonstrate the important topics and topic evolution trends in the literature of terrorism research with the HDP method.
DOI:10.1002/asi.23134      URL     [本文引用:1]
[5] Blei D M, Lafferty J D.Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.
[本文引用:6]
[6] Derntl M, Günnemann N, Klamma R.A Dynamic Topic Model of Learning Analytics Research[C]// Proceedings of International Symposium on Instrumentation and Measurement, Sensor Network and Automation. IEEE, 2013: 436-439.
[本文引用:1]
[7] Ha T, Beijnon B, Kim S, et al.Examining User Perceptions of Smartwatch Through Dynamic Topic Modeling[J]. Telematics and Informatics, 2017, 34(7): 1262-1273.
DOI:10.1016/j.tele.2017.05.011      URL     [本文引用:1]
[8] 曹丽娜, 唐锡晋. 基于主题模型的BBS话题演化趋势分析[J]. 管理科学学报, 2014, 17(11): 109-121.
[本文引用:1]
(Cao Li’na, Tang Xijin.Trends of BBS Topic Based on Dynamic Topic Model[J]. Journal of Management Sciences in China, 2014, 17(11): 109-121.)
[9] 齐亚双, 祝娜, 翟羽佳. 基于DTM的国内外情报学研究主题热度演化对比研究[J]. 图书情报工作, 2016, 60(16): 99-109.
[目的 /意义]为揭示情报学领域近15年的研究方向和发展演化情况,了解和掌握研究主题热度的动态变化。[方法 /过程]基于动态主题模型(Dynamic Topic Model),以国内外情报学领域影响因子较高的6本核心期刊作为数据集,分析国内外情报学研究主题演化过程,从主题热度的宏观维度和词语变化的微观角度入手,对比分析主题的研究内容和研究热度异同点,以期为我国情报学研究提供参考和借鉴。[结果 /结论]研究结果表明,国内情报学研究内容偏重实际应用,国外偏重于技术与方法的创新;同一研究主题在不同时期涉及研究内容差别明显,导致其研究热度随着时间推移发生变化;相对于国内,国外情报学研究主题传承性和递进性更强,热度变化较小。
URL     [本文引用:1]
(Qi Yashuang,Zhu Na,Zhai Yujia.A Comparative Study on Topic Heats Evolution in the Field of Information Science Between the Domestic and Foreign Research Based on DTM[J]. Library and Information Service, 2016, 60(16): 99-109.)
[10] 蒋卓人, 陈燕, 高良才, . 一种结合有监督学习的动态主题模型[J]. 北京大学学报: 自然科学版, 2015, 51(2): 367-376.
An innovative Supervised Dynamic Topic Model (S-DTM) is developed for overcoming the limitation of tranditional topic models. S-DTM models the time-varying language dynamics and is combined with supervised learning technology by adding label restriction in topic variational inference. It makes the topic-label mapping and improves the interpret ability of topics. A set of experiments is conducted on a twenty-five-year-spanning Chinese journal paper corpus that is mainly focusing on natural language processing. Experiment results show that compared with static supervised topic model and unsupervised dynamic topic model, S-DTM has a better semantic interpretation performance, reflects the topic structure of a document more accurately, captures the dynamic evolution of the term-distribution of topics more precisely.
DOI:10.13209/j.0479-8023.2015.035      URL     [本文引用:1]
(Jiang Zhuoren, Chen Yan, Gao Liangcai, et al.A Supervised Dynamic Topic Model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 367-376.)
[11] 李超雄, 黄发良, 温肖谦, . 基于动态主题情感混合模型的微博主题情感演化分析方法[J]. 计算机应用, 2015, 35(10): 2905-2910.
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。
DOI:10.11772/j.issn.1001-9081.2015.10.2905      Magsci     URL     [本文引用:2]
(Li Chaoxiong, Huang Faliang, Wen Xiaoqian, et al.Evolution Analysis Method of Microblog Topic-Sentiment Based on Dynamic Topic Sentiment Combining Model[J]. Journal of Computer Applications, 2015, 35(10): 2905-2910.)
[12] 李慧, 胡云凤. 基于动态情感主题模型的在线评论分析[J].数据分析与知识发现, 2017, 1(9): 74-82.
URL     [本文引用:1]
(Li Hui, Hu Yunfeng.Analyzing Online Reviews with Dynamic Sentiment Topic Model[J]. Data Analysis and Knowledge Discovery, 2017, 1(9): 74-82.)
[13] Gerrish S M, Blei D M.A Language-based Approach to Measuring Scholarly Impact[C]//Proceedings of International Conference on Machine Learning. DBLP, 2010: 375-382.
[本文引用:3]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
动态主题模型
自适应时间窗口
DIM
影响因素
文本扩充

Dynamic Topic Model
Adaptive Time Window
DIM
Influence Factor
Text Expansion

作者
王婷婷
王宇
秦琳杰

Wang Tingting
Wang Yu
Qin Linjie
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn