基于深度融合特征的政务微博转发规模预测模型*

doi:10.11925/infotech.2096-3467.2019.0720

基于深度融合特征的政务微博转发规模预测模型^*

徐月梅^,^,, 刘韫文, 蔡连侨

北京外国语大学信息科学技术学院北京 100089

Predicitng Retweets of Government Microblogs with Deep-combined Features

Xu Yuemei^,^,, Liu Yunwen, Cai Lianqiao

School of Information Science and Technology, Beijing Foreign Studies University, Beijing 100089, China

通讯作者: 徐月梅,ORCID：0000-0002-0223-7146,E-mail:xuyuemei@bfsu.edu.cn。

收稿日期: 2019-06-20 修回日期: 2019-08-5 网络出版日期: 2020-02-25

基金资助:

*本文系北京市社会科学基金项目“北京对外文化传播过程中‘两微一端’影响力比较研究”. No. 15JDZHC011
北京外国语大学一流学科建设项目“基于语义神经网络的文本话题和情感分析研究与实现”的研究成果之一. No. YY19ZZA012

Received: 2019-06-20 Revised: 2019-08-5 Online: 2020-02-25

摘要

【目的】 预测政务微博的转发规模,研究及评估影响政府微博传播规模的重要特征,把握政务微博的信息舆论走向。【方法】 针对政务微博的特点,提出一种深度融合特征的政务微博转发预测方案,引入卷积神经网络（CNN）和梯度提升决策树（GBDT）将发布者特征、时间特征及内容特征深度融合,预测政务微博的转发规模并对影响转发规模的特征进行重要性排序,找出影响政务微博转发规模的最重要特征。【结果】 引入文本语义特征显著提升了转发规模的预测准确率,所提模型将政务微博转发规模的预测准确率提升至0.933。特征重要性实验结果表明,文本语义特征在影响政务微博转发规模的所有特征中最为重要。【局限】 未考虑间接转发对整体转发规模的影响。【结论】 深度融合发布者特征、时间特征及内容特征的CNN+GBDT模型能够显著提高政务微博转发规模预测的准确率。

关键词： 政务微博 ; 转发规模预测 ; 卷积神经网络 ; 文本分类

Abstract

[Objective] This paper tries to predict the number of retweets of government microblogs, aiming to evaluate the important features affecting retweets and public opinions.[Methods] First, we used the Convolutional Neural Network (CNN) and Gradient Boosting Decision Tree (GBDT) to combine user, time and content features. Then, we predicted the retweet numbers of government microblogs. Finally, we ranked the importance of every feature to find the most important one for retweets.[Results] The proposed model improved the accuracy of retweet prediction to 0.933. The semantic feature of microblog texts is the most important one.[Limitations] We did not study the impacts of indirect retweeting behaviors.[Conclusions] The CNN-GBDT model for deep-combined features could effectively predict retweets of government microblogs.

Keywords： Government Microblogs ; Retweeting Scale Prediction ; Convolutional Neural Network ; Text Classification

PDF (2023KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

徐月梅, 刘韫文, 蔡连侨. 基于深度融合特征的政务微博转发规模预测模型^*. 数据分析与知识发现[J], 2020, 4(2/3): 18-28 doi:10.11925/infotech.2096-3467.2019.0720

Xu Yuemei. Predicitng Retweets of Government Microblogs with Deep-combined Features. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 18-28 doi:10.11925/infotech.2096-3467.2019.0720

1 引言

随着互联网发展和信息技术普及,微博已成为国内最大的政务媒体平台。政务微博作为政府发布公共信息、与民众互动的重要平台,在信息“上情下达”、有效“引导舆论”和提升政府管理效率上起到重要作用^[1]。政务微博指代表政府机构、因公共事务而设立的微博。根据《2018年度人民日报政务指数·微博影响力报告》显示,截至2018年6月,经过认证的政务微博达17.58万个。2018年上半年政务微博的总粉丝已经达到29亿,2018年政务微博的总阅读量超过3 890亿^[2]。

微博转发行为是政务微博信息扩散的最重要方式,是研究微博信息传播的关键问题之一。研究政务微博的转发行为,对于监测舆情、科学引导网络舆论和净化网络谣言具有重大意义。转发行为预测是一个二元分类问题,具有简单、直接的特点,然而却与微博自身的影响力、微博内容、用户兴趣、发布时间等因素息息相关。转发行为预测的难点在于如何捕获更多有意义的影响因素,并且有机地组合在一起提高预测准确率。

现有研究中,微博转发行为的预测模型采用的特征大多为用户特征和内容特征。仇学明等^[3]研究用户特征对微博转发行为的影响,特征包括用户影响力、粉丝平均标签数、粉丝活跃度等。类似地,刘玮等^[4]从微博能见度和用户行为特征上研究微博转发预测问题,进一步考虑转发行为的动态性和用户历史行为的规律性对转发行为的影响。近年来,学者尝试研究同时考虑用户特征和内容特征的混合模型。马晓峰等^[5]提出基于混合特征的转发预测方法,考虑局部社会影响力特征、用户特征及微博内容主题特征对转发行为的影响。李志清^[6]提出基于LDA主题特征的微博转发预测模型,通过LDA生成微博的主题特征,结合微博特征、用户特征并利用SVM方法预测转发行为。

此外,现有工作仅仅从主题特征颗粒度方面提取微博的内容特征,没有从语义层面考虑微博内容上下文之间的关联,如文献[5]采用TF-IDF方法计算微博主题内容的高频词、文献[6]采用LDA模型提取主题关键词作为内容特征。考虑到微博文本的信息长度较短、文本形式变化多样、蕴含信息丰富,仅仅利用LDA模型和TF-IDF方法提取关键词很难作为微博文本的语义特征。

考虑到现有研究工作的优缺点,本文针对政务微博的特点,创新性地引入卷积神经网络（Convolutional Neural Network,CNN）^[7]和梯度提升决策树（Gradient Boosting Decision Tree,GBDT）^[8],从语义层面考虑微博内容上下文的关联,实现对微博内容特征、用户特征和时间特征多维度信息的深度融合,大大提高了政务微博转发规模预测的准确率。在此基础上,进一步分析不同特征组合、不同机器学习模型在政务微博转发规模预测问题上的表现。

2 相关研究

预测微博转发规模的关键在于找出影响转发量的关键因素,对此国内外学者做了大量研究。Petrovic等^[9]研究Twitter的转发规律,提取用户特征,包括粉丝数、关注数、发布Twitter数,以及Twitter文本特征,如：是否含URL、文本长短、对应话题标签等,使用机器学习方法进行预测。曹玖新等^[10]基于用户属性、社交关系网络以及内容特征对转发规模进行预测。马晓峰等^[5]提出一种基于影响力特征、微博作者特征以及微博话题特征的混合特征转发预测法,其中,话题特征由TF-IDF方法与LDA模型抽取话题特征组合得到。陈江等^[11]提出一种融合热点话题的微博转发预测方法,考虑到微博所涉及的热点话题内容及传播趋势对用户转发行为的影响。Weng等^[12]注意到转发行为与微博影响力的关系,提出一种基于发布者用户影响力的TwitterRank算法。在此基础上,李倩等^[13]进一步研究活跃邻居节点数、活跃邻居结构及相邻用户之间的互动等对转发行为的影响。

近年来,随着中国“全媒体”政务公开进程的推进,政务微博扮演的角色越来越重要,因此政务微博的传播特征也成为微博转发行为的研究热点。周莉等^[14]通过研究突发事件中政务微博的表现,发现政务微博在突发事件中以发布原创微博为主,态度多为中立,并且政务微博在突发事件爆发期与高潮期发布的微博更容易引发公众的大量关注与转发。陈然等^[15]结合聚类分析与可视化分析方法,从政务微博的转发次数、转发层级、微博自身传播力以及意见领袖的参与程度等方面研究政务微博的传播方式。张漫锐等^[16]以人气较高的政务微博“@江宁公安在线”作为研究对象,提出一种微博影响力计算方法,并将其作为政务微博传播规模的评价指标,进而分析各项微博特征与传播效果的相关性。李倩倩等^[17]利用LDA提取政务微博主题特征,并结合微博体裁、表现形式、发布者行政级别、粉丝数、发布时间等预测政务微博转发规模。

综上,现有微博转发预测研究主要由人工选择、定义特征,除了用户特征、时间特征等较为简单的离散特征,内容特征往往由LDA模型或TF-IDF方法提取得到。然而,对于蕴含信息极为丰富、形式变化莫测的微博文本,简单的主题或关键词很难全面概括其内容特征,需要进一步挖掘更深层次的信息。

3 基于深度融合特征的政务微博转发规模预测模型

政务微博转发规模预测是一个二分类问题,转发量超过某预定阈值的为“高转发”规模,反之则为“低转发”规模。基于深度融合特征的政务微博转发预测的流程如图1所示。基本思路是：利用CNN模型提取微博文本语义层面的文本特征,再通过GBDT模型实现对政务微博的内容特征、发布者特征和时间特征的深度融合,预测微博转发规模,并将不同特征对政务微博转发规模的重要性进行排序。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 基于深度融合特征的政务微博转发预测流程

Fig.1 Flowchart of Retweeting Scale Prediction of Government Microblogs Based on Deep-combined Features

（1）从微博账户中提取出微博文本、发布者特征、时间特征作为原始数据集。

（2）获取内容特征：一方面利用微博文本训练CNN模型,提取高转发微博文本的语义特征;另一方面利用现有TF-IDF方法提取高转发政务微博的高频关键词;将二者组合在一起作为文本内容特征。

（3）将GBDT模型融合所有的发布者特征、时间特征以及内容特征,实现对政务微博的转发规模预测。

3.1 政务微博的转发特征提取

政务微博的转发特征选取对转发预测模型的准确性至关重要。研究发现,政务微博与普通微博用户最大的不同之处在于政务微博与其他用户之间的关系及用户之间的交互方式。在普通微博用户中,通常存在基于“好友关系”的转发网络,即互相关注、经常互动的用户更有可能转发彼此的微博。然而,政务微博的定位与普通微博用户不同,其粉丝数与关注数相差巨大,与普通用户的互动也比较随机,几乎不存在基于“好友关系”的裂变式传播。目前,政务微博主要以官方发布信息为主,因此其转发规模主要受到政务微博自身特征、所发布微博内容的影响。

因此,本文在现有对微博转发预测问题的研究基础上,结合政务微博的特点,选取发布者特征、内容特征以及时间特征作为政务微博的转发特征。

（1）发布者特征

①发布者粉丝数

粉丝数是衡量用户影响力的重要因素之一。对于政务微博来说,粉丝数通常反映了其受众的规模。例如,国家级政务微博的粉丝数通常高于地方级政务微博。因此,国家级政务微博所发布的政务信息通常能够被更多人阅读并转发。选取发布者粉丝数作为预测转发规模的重要特征之一。

②发布者日均发博数

日均发博数反映政务微博账号的活跃度。根据人民日报的定义,发博数是政务微博“服务力”的重要体现。发博数指标越高,说明政务机构通过微博平台服务了越多的网民,从而吸引更多网民进行互动转发。政务微博账号 $u$ 的日均发博数 $Daily (u)$ 计算如公式(1)所示。

(1)

Daily (u) = \frac{Posts (t)}{Days (t)}

其中, $Posts (t)$ 表示时间段 $t$ 内发布的微博个数, $Days (t)$ 表示时间天数 $t$ 。

③发布者热转率

发布者热转率从一定程度反映政务博主的受欢迎程度与其发布信息的认可度。给定预定义的转发阈值 $ξ$ ,将某微博内容的转发数大于或等于 $ξ$ 值的定义为高转发微博,低于 $ξ$ 值的定义为低转发微博。统计历史发布微博内容的高转发占比,即热转率,对预测新发布微博内容的转发规模具有很大的参考价值。政务微博账号 $u$ 在时间段 $t$ 内的热转率 $Popularity (u, t)$ 计算如公式(2)所示。

(2)

Popularity (u, t) = \frac{Hig h posts (u, t)}{Post (u, t)}

其中, $Hig h posts (u, t)$ 表示在时间段 $t$ 内,账户 $u$ 的高转发微博条数, $Post (u, t)$ 表示在时间段 $t$ 内,账户 $u$ 所发布的微博总数量。

（2）内容特征

①CNN文本语义打分

现有的研究工作通常选择微博的主题、题材、是否包含多媒体信息等作为微博的内容特征。然而,这些信息不能体现微博文本的语义特征。相关研究表明,高转发微博文本内容之间具有一定的相似性,从而吸引用户频繁转发。CNN在文本语义特征提取、处理短文本分类问题中表现优异^[7],可作为判别高转发文本之间语义相似性的手段。CNN模型对微博文本预测其高转发概率的过程如图2所示,包括输入层、卷积层、池化层和全连接层。每一层的输出是下一层的输入。卷积层作为特征提取层,通过滤波器提取局部特征,经过卷积核函数运算产生特征图,输出到池化层。池化层属于特征映射层,提取每张特征图中的典型特征,最后通过全连接层映射得到输出分类向量。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 CNN模型对微博文本的语义打分过程

Fig.2 The Procedure of Microblogs Text Semantic Calculation Based on CNN

采用Word2Vec训练微博文本,将词向量设定为 $m$ 维,对于句子长度为 $n$ 的微博文本,得到一个 $m \times n$ 的词向量矩阵作为卷积层的输入。利用 $h \times k$ 的滤波器对微博文本的词向量矩阵 $E_{[1 : n]}$ 进行卷积操作,如公式（3）所示。

(3)

c_{i} = g (w \cdot E_{[i : i + h - 1]} + b)

其中, $c_{i}$ 代表特征图中第 $i$ 个特征值, $g (\cdot)$ 是卷积核函数,一般采用收敛速度较快的ReLU函数, $w \in R^{h \times k}$ 为滤波器, $h$ 为滑动窗口大小, $b$ 为偏置值。 $E_{[i : i + h - 1]}$ 表示由第 $i$ 行到第 $i + h - 1$ 行组成的局部Word2Vec矩阵。将滤波器用于每个窗口大小为 $h$ 的Word2Vec矩阵序列 ${E_{[1 : h]}, E_{[2 : h + 1]}, \dots, E_{[n - h + 1 : n]}}$ ,得到该主题的特征图 $C$ 如公式（4）所示。

(4)

C = [c_{1}, c_{2}, c_{3}, \dots, c_{n - h + 1}]

池化层采用Max-over-time Pooling方法对特征图进行采样,主要思想是抽取每个特征图中最重要的值传入全连接层。最后通过Softmax函数获得最终的分类结果。在模型中,通过修改CNN代码输出,不直接输出文本分类结果,而是输出微博文本属于高转发微博和低转发微博的概率,并将高转发概率值作为微博文本的CNN文本语义打分结果。

②关键词相似度

除了CNN文本语义打分,关键词相似度也是内容特征的重要组成。相关研究工作^[5,6]表明：高转发规模的微博通常含有一些共性的关键词,这些关键词往往反映公众普遍的兴趣点与关注点,可以作为预测转发规模的依据。

对所有微博文本数据构建词袋模型,得到所有特征词构成的集合 $V$ 。对于 $V$ 中的每一个单词,利用TF-IDF方法计算其在高转发微博和低转发微博中的TF-IDF值。将 $V$ 中的特征词按照高转发TF-IDF值进行排序,筛选出所有高转发TF-IDF值大于低转发TF-IDF值的特征词,构成高转发微博的关键词集合 $V_{h} = (v_{1}, v_{2}, \dots, v_{n})$ 和对应的关键词向量 $x = {x_{1}, x_{2}, \dots, x_{n}}$ , $v_{i}$ 表示第 $i$ 个特征词, $x_{i}$ 为特征词 $v_{i}$ 的高转发TF-IDF值, $n$ 为 $V_{h}$ 中特征词的个数。该选取方法一方面使得 $V_{h}$ 包含高转发微博中的高频特征词,另一方面很好地避免了某个特征词因为在高低转发中的出现频率都很高而失去区分度。

对于待预测转发规模的新微博文本内容 $d = {d_{1}, d_{2}, \dots, d_{m}}$ ,根据 $V_{h}$ 中的关键词,生成一个 $n$ 维向量：对于 $V_{h}$ 中的每一个特征词,如果该单词在新微博文本中出现,则表示为对应的TF-IDF值;若未出现,则表示为0。即 $d$ 生成一个 $n$ 维向量 $y = {y_{1}, y_{2}, \dots, y_{n}}$ ,其中, $y_{i}$ 计算方法如公式（5）所示。

(5)

y_{i} = \{\begin{array}{l} x_{i} v_{i} \in d \\ 0 v_{i} \notin d \end{array}

对于新微博文本 $d$ 的关键词向量 $y = {y_{1}, y_{2}, \dots, y_{n}}$ ,利用余弦相似度^[18]计算其关键词相似度值,如公式（6）所示。

(6)

Cos (θ_{d}) = \frac{\sum_{i}^{=} (x_{i} \times y_{i})}{\sqrt[]{\sum_{i}^{=} (x_{i})^{2}} \times \sqrt[]{\sum_{i}^{=} (y_{i})^{2}}}

（3）时间特征

时间特征反映不同发布时间段对微博转发规模的影响。相关研究^[15]表明,微博信息发布后会先经历一段高转发窗口,随后随着发布时间增长,其转发概率逐渐下降直至为0。因此,微博发布时间不同,高转发窗口内接收到信息的用户数量也不同,从而影响微博的转发量。

根据微博用户的活跃时间段特征,将一天24小时划分为5个时间段,分别是：凌晨（00:00-06:00）、早晨（06:00-11:00）、中午（11:00-13:00）、下午（13:00-18:00）、晚上（18:00-00:00）。时间特征作为离散特征难以直接融合到转发规模分类特征中,因此采用证据权重 (Weight Of Evidence, WOE)^[19]对离散的时间特征进行编码,提升模型预测的准确率。

WOE是一种常见的对离散特征进行编码的方式,通过对自变量进行标准化处理,增加了变量的可理解性与可比较性。对于离散时间段 $i$ ,其WOE编码值如公式（7）所示。

(7)

WOE (i) = \ln (\frac{p (y_{i})}{p (n_{i})})

其中, $p (y_{i})$ 表示时间 $i$ 内的高转发微博文本数占所有高转发微博文本数的比例, $p (n_{i})$ 表示时间段 $i$ 内低转发的微博文本数占所有低转发微博文本数的比例。

3.2 融合特征的GBDT转发规模分类器

梯度提升决策树（GBDT）^[8]是一种泛化性能很强的机器学习算法,通过多次迭代训练出多个回归树弱分类器,并将弱分类器的结果累加作为最终预测结果。与传统的决策树相比,能够降低单棵树的复杂性,有效避免过拟合。同时,由于加入正则项,GBDT能够更好地抵抗噪音,对于处理杂乱无章的微博信息十分适用。因此,本文选用GBDT作为转发规模分类器。根据数据多维特征向量 $x_{i}$ ,GBDT尝试输出预测结果 ${\hat{y}}_{i}$ ,如公式（8）所示。

(8)

{\hat{y}}_{i} = \overset{M}{\sum_{m = 1}} f_{m} (x_{i}) \begin{matrix} , & f_{m} \in F \end{matrix}

其中, $M$ 表示弱分类器个数, $f_{m} (x_{i})$ 表示单个弱分类器 $m$ 的分类结果, $F$ 为包含所有弱分类器的函数空间。

在GBDT训练过程中,目标为最小化函数,如公式（9）所示。

(9)

\min \sum_{i=1}^{n} l (y_{i}, {\hat{y}}_{i}) + \sum_{m=1}^{M} Ω (f_{m})

其中, $l$ 为模型的损失函数,一般采用平方损失函数,每一个弱分类器在前一个弱分类器的残差基础上进行训练,使得残差沿着梯度方向减小,达到尽快收敛到最优解的目的。 $Ω$ 代表弱分类器（决策树）的复杂度,一般与树的节点数量、深度等有关。

对于单棵决策树,一般采用贪心策略生成树的结构。先通过线性扫描方式确定每个特征的最佳分裂点,再找出对于当前节点收益最大的特征作为分裂特征,根据其最佳分裂点完成叶子节点的分裂。

GBDT模型能够很好地融合发布者特征、时间特征以及内容特征,对政务微博的转发规模进行分类预测,并使用其自带的GBDT打分函数对各个特征进行重要度打分,基本原理是先计算节点依据某特征分裂带来的平方损失减少值,得到该特征在每棵树中的重要度,再取平均值作为该特征的全局重要度。

4 实验

4.1 实验数据集和参数设置

（1）实验数据集

实验数据集根据《2018年度人民日报政务指数·微博影响力报告》^[2]中列举的政务微博影响力榜单,使用Python获取榜单中不同领域排名前20的国家级政务微博近一年的数据,共15 000条,获取数据项包括：粉丝数、关注数、博文内容、发布时间、转发数、评论数、点赞数等。数据集示例如表1所示。

表1 原始数据集示例

Table 1 Examples of the Raw Dataset

微博编号	传播规模	微博内容	发布时间	点赞数（次）	转发数（次）	评论数（条）	发布者	粉丝数（人）
1	高	平安回家过大年	2019-01-18 07:30	536	5 813	474	公安部交通安全微发布	5 309 399
2	低	爱心护考,交警同行	2018-06-07 15:13	32	64	6	公安部交通安全微发布	5 309 399
3	高	曾经,在故宫,观画...	2018-07-25 11:34	10 753	5 138	1 149	故宫博物院	6 282 823

新窗口打开| 下载CSV

转发规模阈值的取值主要参考相关法律规定^①(①最高人民法院、最高人民检察院关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释。)“利用信息网络诽谤他人同一诽谤信息实际被转发次数达到500次以上的可构成诽谤罪”,设置转发数500为阈值,超过500标注为高转发微博,低于500标注为低转发微博。在实验数据集中,一共有4 831条高转发微博,高低转发微博比例大致为1∶2。

为确保CNN文本语义打分与GBDT转发规模分类器相互独立、互不干扰,使用11 000条数据训练CNN模型,用剩下的4 000条数据进行测试,得到测试集的文本语义打分结果。之后将4 000条数据进一步划分,使用3 200条作为GBDT转发规模分类器的训练集,800条作为测试集。同时,为降低数据分布对实验结果的影响,在划分时使各数据集中高低转发比例均与原数据集保持一致,为1∶2。

（2）参数设置和模型输入

CNN模型的性能受到词向量维度、卷积窗口大小、迭代次数、过滤器数量等因素影响。在实验中通过十折交叉验证评估CNN模型表现,选定最合适的参数组合。在本文数据集上表现最好的参数组合如表2所示。

表2 CNN模型参数设置

Table 2 Parameter Settings of CNN

参数	参数值
词向量维度	300
卷积核个数	256
卷积核大小	5
Dropout	0.5
batch_size	64
迭代次数	20
激活函数	ReLU

新窗口打开| 下载CSV

可见,文本分类器训练集准确率达98%,测试集准确率达84%。测试集数据经过CNN模型预测得到微博文本属于高转发规模的概率,将该概率值作为文本语义打分特征与其他特征一起传入转发规模分类器。

融合所有特征后作为GBDT转发规模分类器输入的数据集格式举例如表3所示。

表3 转发规模分类器输入数据集示例

Table 3 Examples of Input Dataset in the Retweeting-Scale-Prediction Model

特征传播类别	CNN文本语义打分	关键词相似度	粉丝数	发布者日均发博数	发布者高转发率	时间特征
高	1.000	0.317	0.167	0.357	0.147	-1.204
高	1.000	0.553	0.167	0.357	0.147	-0.223
低	0.125	0.030	0.024	0.571	0.018	-0.223
低	0.476	0.065	0.024	0.571	0.018	-0.223

新窗口打开| 下载CSV

其中CNN文本语义打分列是利用CNN模型对微博文本的语义打分结果,值越大表明该文本包含的信息更容易被受众转发,发布时间段的值为采用WOE对离散时间段编码后得到的编码值。发布者粉丝数、发布者日均发博数、以及发布者热转率特征之间的数量级相差较大,分别采用归一化预处理,将值映射到[0,1]区间。

4.2 高转发关键词提取

根据3.1节的方法提取高转发关键词和关键词向量,部分高转发关键词结果及其TF-IDF值如下所示。

可以发现,容易获得高转发规模的话题特征包括,出现关键词最多的交通出行类（驾驶、交警、交通安全、高速等）,法制案件类（民警、好人、公安部、老人、孩子、生命等）。此外,政务微博作为政府管理的媒体平台,热门转发微博中也时常出现各种政治热点名词,如十九大、一带一路、改革开放等。可以推断,如果一条政务微博中出现一个或多个高转发关键词,那么将有更大的概率获得高转发规模。

4.3 转发规模预测实验结果

（1）评价指标和对比算法

以表4的混淆矩阵为基础,计算准确率（Accuracy）、召回率（Recall）、精确度（Precision）以及F1值作为实验评价指标。其中,TT表示高转发微博中被正确预测为高转发的数量,TF表示高转发中被预测为低转发的数量,FT表示低转发中被预测为高转发的数量,FF表示低转发中被正确预测为低转发的数量。评价指标计算如公式（10）-公式（13）所示。

（10）

Accuracy = \frac{TT + FF}{TT + TF + FT + FF}

（11）

Recall = \frac{TT}{TT + TF}

（12）

Precision = \frac{TT}{TT + FT}

（13）

F 1 = \frac{2 \times Recall \times Precision}{(Recall + Precision)}

表4 混淆矩阵

Table 4 Confusion Matrix

混淆矩阵		预测值
混淆矩阵		高转发	低转发
实际值	高转发	TT	TF
实际值	低转发	FT	FF

新窗口打开| 下载CSV

本文提出的融合CNN打分结果和各个离散特征作为GBDT分类器输入的预测模型简称为CNN+GBDT。为验证CNN文本语义打分的重要性,选取三种对比算法如下：

①SVM：不考虑CNN对文本语义特征的转发概率打分,选取表3中剩余的特征作为SVM算法的特征输入。

②CNN+SVM：采用与CNN+GBDT相同的特征集合,选取SVM而非GBDT算法作为转发规模分类器的预测算法。

③GBDT：与对比算法①的特征选取相同,但使用GBDT算法作为预测算法。

（2）实验结果

为降低随机实验结果的影响,使用留出法随机划分100次训练集与测试集,选取100次实验的平均值作为各评价指标的最终结果,如表5所示。

表5 实验结果对比

Table 5 Experiment Results

算法	准确率	召回率	精确度	F1值
CNN+SVM	0.905	0.823	0.886	0.861
SVM	0.833	0.695	0.781	0.737
CNN+GBDT	0.933	0.869	0.925	0.918
GBDT	0.842	0.683	0.817	0.768

新窗口打开| 下载CSV

实验结果表明,本文提出的引入CNN文本语义打分的特征组合大大提升了模型分类预测性能,两种分类器准确率分别提升0.072和0.091,GBDT准确率更是达到0.933。同时,为更直观地对比算法的性能,4种算法在100次实验中的准确率、召回率、精确度和F1值的实验结果如图3-图6所示。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 4种算法的准确率对比

Fig.3 Accuracy of the Four Algorithms

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 4种算法的召回率对比

Fig.4 Recall of the Four Algorithms

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 4种算法的精确度对比

Fig.5 Precision of the Four Algorithms

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 4种算法的F1值对比

Fig.6 F1-value of the Four Algorithms

实验结果表明,CNN+GBDT模型的性能优于CNN+SVM,其次是GBDT模型,性能最差的是SVM算法。所提模型的平均准确率达0.933,平均召回率达0.869,平均精确度达0.925,平均F1值达0.918。主要是由于GBDT在训练时以残差为基础,相当于变相增大了错分样本的训练权重,使得模型的误分率降低,准确率升高。

4.4 特征重要性分析

采用对比实验法和GBDT自带特征排序结果进行对比验证,讨论不同特征对于转发规模预测准确性的影响。

（1）对比实验法

对比实验法选取不同的特征组合,测试SVM算法以及GBDT算法的转发规模预测性能,从而推断特征的重要性,结果如表6和表7所示。其中,内容特征为表3中的第2、3列,发布者特征为表3中的4、5、6列,时间特征为表3的第7列。

表6 不同特征组合下GBDT模型表现

Table 6 Performance of GBDT Model Using Different Feature Settings

指标特征组合	准确率	召回率	精确度	F1值
发布者特征+内容特征+时间特征	0.933	0.869	0.925	0.918
发布者特征+时间特征	0.832	0.667	0.800	0.733
内容特征+时间特征	0.886	0.787	0.861	0.852
发布者特征+内容特征	0.931	0.867	0.922	0.912

新窗口打开| 下载CSV

表7 不同特征组合下SVM模型表现

Table 7 Performance of SVM Model Using Different Feature Settings

指标特征组合	准确率	召回率	精确度	F1值
发布者特征+内容特征+时间特征	0.905	0.823	0.886	0.861
发布者特征+时间特征	0.814	0.681	0.742	0.712
内容特征+时间特征	0.852	0.693	0.837	0.760
发布者特征+内容特征	0.897	0.806	0.877	0.843

新窗口打开| 下载CSV

实验结果表明,内容特征对模型效果的提升最为显著,其次是发布者特征,而时间特征则不那么重要。

（2） GBDT特征排序结果

GBDT算法能够对输入的特征组合进行重要性排序。GBDT算法对6个特征进行重要性排序的结果如图7所示。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 GBDT对不同特征的重要性排序结果

Fig.7 Importance Ranking of Different Features Measured by GBDT

可以看出,内容特征（CNN文本语义打分+关键词相似度）最为重要,特征重要度为0.607;发布者特征（发布者粉丝数+发布者热转率+发布者日均发博数）次之,特征重要度为0.333;时间特征最后,特征重要度为0.060,与对比实验法的结论相同。此外,在所有特征中,CNN文本语义打分重要程度最高,为0.444,远超其他特征,进一步说明本文引入CNN文本语义打分的方法是十分有效的。

上述特征的重要性排名结果可以对政务微博的运营与建设提供一些参考和建议：

①切合时事热点、贴近人民关切的内容是政务微博获得高转发的先决条件。例如2018年4月,商务部下属政务微博“@商务微新闻”针对中美贸易战事件发表了一系列微博,坚定不移表达中国立场,相关微博获得了大规模转发扩散,也赢得了公众一致好评。2018年6月,演艺圈爆出的“阴阳合同”逃税事件在网络上引发大量关注,“@国家税务总局”第一时间作出回应,表示将严格调查有关人员纳税情况,依法查处违规行为。此举被网友称道,并获得大量转发。

②除了精彩的内容,政务博主自身的影响力与人气也十分重要。例如“@共青团中央”、“@中国警方在线”等政务博主每日发布大量优质微博,且与粉丝保持良好互动,逐渐成为粉丝较多的人气政务微博,其新发布的微博有较大概率获得高转发。

③发布时间也会一定程度上影响政务微博的转发规模,但针对本文收集到的数据集测试发现,时间的影响并不显著。

5 结语

实现对政务微博转发规模的准确预测以及研究影响转发规模的各项因素,一方面能够帮助政府预判舆情走向,提前做好应对准备;另一方面有助于政府了解民众的各种偏好与兴趣点,提高政务微博质量。针对政务微博的特点,本文提出一种深度融合特征的政务微博转发预测模型,引入卷积神经网络和梯度提升决策树将发布者特征、时间特征及内容特征有机组合一起,预测政务微博的转发规模并对影响转发规模的特征进行重要性排序,找出影响政务微博转发规模的最重要特征。实验结果表明,所提模型的转发规模预测准确率较现有算法提升10%左右。最后,对影响转发规模的特征进行重要性分析,发现：内容特征>发布者特征>时间特征。而在所有特征中,本文提出的CNN文本语义打分重要程度排名第一,再次证明其在政务微博转发规模预测中发挥的重要作用。本文未考虑间接转发对微博转发规模的影响,未来将研究间接转发特征的量化,从而优化模型。

作者贡献声明

徐月梅：设计模型思路,论文修改及最终版本修订;

刘韫文：设计研究方案,执行实验,撰写论文;

蔡连侨：设计研究方案,论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: tanglin@dlut.edu.cn。

支撑数据由作者自存储,E-mail：xuyuemei@bfsu.edu.cn,主要代码见：https://github.com/Karenlyw/Weibo-retweeting-scale-prediction。

[1] 徐月梅,刘韫文,蔡连侨. all.csv. 原始微博数据.

[2] 徐月梅,刘韫文,蔡连侨. train.txt. CNN训练数据.

[3] 徐月梅,刘韫文,蔡连侨. test.txt. CNN测试数据.

[4] 徐月梅,刘韫文,蔡连侨. weibo_Spyder.py. 微博爬虫程序.

[5] 徐月梅,刘韫文,蔡连侨. tfidf.py. 高转发关键词相似度计算程序.

[6] 徐月梅,刘韫文,蔡连侨. train_word2vec.py. word2vec模型训练程序.

[7] 徐月梅,刘韫文,蔡连侨. loader.py. CNN模型输入预处理程序

[8] 徐月梅,刘韫文,蔡连侨. text_model.py. CNN模型定义程序.

[9] 徐月梅,刘韫文,蔡连侨. text_train.py. CNN模型训练程序.

[10] 徐月梅,刘韫文,蔡连侨. text_test.py. CNN模型测试程序.

[11] 徐月梅,刘韫文,蔡连侨. text_predict.py. CNN模型预测程序.

[12] 徐月梅,刘韫文,蔡连侨. gbdt.py. GBDT模型训练测试程序.

[13] 徐月梅,刘韫文,蔡连侨. svm.py. SVM模型训练测试程序.

[14] 徐月梅,刘韫文,蔡连侨. retweeting_scale_prediction.py. 转发规模预测程序.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

刘泱育

新闻大学

[J]. 新闻大学, 2017(1):78-84.

检索词推荐：