网络舆情潜在热点主题识别研究*

图1 网络舆情潜在热点主题识别框架

Fig. 1 The Framework for Identifying Potential Hot Topics of Network Public Opinion

该框架主要包含实时微博舆情主题检测和基于机器学习的网络舆情潜在热点主题识别两个方面。

（1）实时微博舆情主题检测

本研究选择新浪微博作为研究平台,由于无法实现监测与跟踪所有微博用户,所以从意见领袖角度出发,参照微博榜单^①(①http://bang.weibo.com/.),选择政务类微博用户、传统媒体类微博用户、自媒体类橙色大V用户若干,形成意见领袖（Key Opinion Leaders, KOLs）集合,作为本文的数据来源,抓取其发布的实时微博数据作为原始数据集,在噪声过滤、分词等预处理的基础上,基于Single-Pass增量式聚类思想,利用基于密度的聚类算法,自动检测其中所包含的舆情主题。由于微博舆情数据随着时间推进不断更新,是一个动态过程,因此实时舆情主题检测是一个增量式聚类过程,相关算法需定时唤醒。

（2）基于机器学习的网络舆情潜在热点主题识别

以识别出的主题作为进一步的研究对象,将潜在热点主题的识别视作分类问题,选取并量化能表征主题是否会成为热点的特征项,选择Logistic Regression与SVM两种机器学习分类模型作为潜在热点主题识别的候选模型,利用人工标注的数据对模型进行训练,利用准确率、召回率及F1值比较两种分类模型效果,寻找最佳的潜在热点主题识别模型。最后,利用训练好的模型对新产生的舆情主题进行分类,识别出其中可能成为热点的主题,即潜在热点主题。

3.2 增量式实时舆情主题检测

基于Single-Pass增量式聚类思想,结合DBSCAN密度聚类方法实现从真实、动态的网络舆情数据流中获取主题。实时舆情主题检测算法如下所示。

输入：主题集合T（初始状态为空）;微博数据集W。

输出：更新后的主题集合T;微博-主题对应关系。

（1）对采集到的微博数据进行噪声过滤、分词及停用词过滤处理,利用VSM模型与TF-IDF算法进行文本特征向量表示。此时,若主题集合T为空,则执行步骤（2）,否则跳转至步骤（3）;

（2）利用DBSCAN算法对步骤（1）中处理好的数据集合进行聚类操作,根据聚类结果,更新主题集合T。其中,主题集合T中的每个主题由该主题下所有微博中筛选出的TF-IDF值最高的且词性为名词、动词和形容词的前10个词汇表示;

（3）遍历采集到的所有微博数据,将每条微博文本依次与主题集合T中的已有主题进行相似度计算,如果相似度计算结果中的最大值大于预设的相似度阈值 $δ_{s}$ ,则将该微博划分到该主题下;

（4）对于步骤（3）中相似度计算后没有匹配到主题的微博子集,跳转至步骤（2）进行聚类处理。

由于微博平台数据的产生是一个动态更新的过程,因此,该算法需定时（如每隔1小时）唤醒,实现增量式地检测实时采集到的微博数据中的舆情主题。

3.3 基于机器学习的网络舆情潜在热点主题识别

本研究将潜在热点主题的识别视作二分类问题,即对3.2节中实时检测出的主题进行分类,那些被划分到热门类别中的主题就是潜在热点主题,即未来有可能成为热点的主题。

（1）潜在热点主题识别特征选取及量化

通过分析舆情热度计算相关的研究,同时结合潜在热点主题自身特点及潜在热点主题预判的现实需求,本研究从传播维与用户维两个维度出发,提出包括主题传播影响力（特征1-4）、主题相关用户活跃度（特征5）、主题相关用户受关注度（特征6-7）与用户微博影响力（特征8-10）等4个层面的潜在热点主题识别特征,如表1所示。

表1 潜在热点主题识别特征

Table 1 Identification Characteristics of Potential Hot Topics

序号	特征量化
1	单位时间内主题相关微博增量
2	单位时间内主题相关微博的评论增量
3	单位时间内主题相关微博的转发增量
4	单位时间内主题相关微博的点赞增量
5	主题相关用户最近30天内的日均发博数
6	主题相关用户最近30天内的粉丝互动h指数
7	主题相关用户的高质量粉丝数
8	主题相关用户最近30天内的微博平均评论数
9	主题相关用户最近30天内的微博平均转发数
10	主题相关用户最近30天内的微博平均点赞数

①传播维

传播维从信息传播的角度反映网民主体对舆情主题的关注程度^[17]。相比非热门主题,热门主题往往更能吸引网民关注,引发主体共鸣。随着主题传播范围的逐步扩大,传播影响力不断加深,舆情主题就有爆发成为热门主题的可能。在微博平台上,这种传播效应最直观的表现形式就是主题相关微博量的增多,以及微博评论、转发、点赞数量（简称“转评赞数量”）的增长。因此,本文通过持续监测与观察这些统计数据在单位时间里的变化量随时间推进的动态变化情况,以期从信息传播的过程中发现网络舆情的苗头性信息,从而达到预先识别潜在热点主题的目标。

②用户维

本研究参考现有关于用户影响力的研究,从用户活跃度、用户受关注度与用户微博影响力三个方面全面衡量用户的影响力。

1）用户活跃度

文献[17]将用户活跃度称为用户影响力的产生动力,换句话说,一个用户如果只是名义上的高影响力用户,却在微博平台上不进行任何活动,那么用户的实际影响力难以得到体现。因此,用户活跃度是衡量用户影响力的因素之一。现有研究多以用户的日均发博数作为衡量标准,计算方法为：用户微博总数除以用户微博账号创建时长。这种计算方法并不能衡量当前用户最近的活跃程度,尤其在无法实现对全部微博用户进行监测的情况下。所以只有最近活跃度高的用户才更具监测价值,因此,本研究采用用户最近30天内日均发博数作为用户活跃度的测量项。

2）用户受关注度

用户受关注度表征用户在信息传播过程中可能的受众范围。受众范围越广,其所发信息越容易被更多用户接收,参与讨论与转发的用户规模就越大,信息经层层转发与扩散,相关舆情就越容易进一步演化为舆论。本研究借鉴PageRank思想及h指数,将高质量粉丝数和粉丝互动h指数作为用户受关注度的衡量标准。

高质量粉丝数：借鉴PageRank思想^[18],当某一用户的入链用户节点（即关注当前用户的用户节点）具有高影响力时,可认为该用户必然也是重要的用户节点。反之,当该用户拥有众多高影响力入链节点时,其发布的信息经这些高影响力的入链用户转发,会吸引更多的用户关注,相关舆情越容易成为舆论焦点。因此,通过微博平台提供的用户粉丝群博主分布情况,选择拥有一定粉丝规模且具体微博认证的大V用户,利用这些博主的数量（即高质量粉丝数）代替粉丝数作为用户受关注度的测量项之一,以消除虚假粉丝数对用户影响力的干扰。

粉丝互动h指数：将信息计量学中用于评价研究人员个人研究成就的h指数^[19]用于评价微博用户影响力,将微博用户发布的微博类比研究人员发表的论文,微博粉丝互动数（转评赞数量的综合指标）类比研究人员论文的被引频次,引入粉丝互动h指数这一新指标。该指标的具体获取方式为：利用微博提供的降序排列的粉丝互动数列表,找出其中序号小于或等于其对应的互动数的最大值,该值即为当前用户的粉丝互动h指数。该指标同时从数量与质量两个角度衡量用户真实的受关注度,消除了那些与博主毫无互动的“僵尸粉”的干扰。

3）用户微博影响力

用户受关注度反映用户潜在的信息传播覆盖度,用户所发微博的微博影响力表征用户真实的信息传播范围。为保证用户微博影响力的时效性,仍以用户最近30天内所发微博的相关统计量作为参考依据,最终的用户微博影响力计算如公式（1）所示。

（1）

M I_{i} = α \cdot \overset{C_{i}}{C} + β \cdot \overset{C_{i}}{R} + γ \cdot \overset{C_{i}}{L}

其中, $M I_{i}$ 表示主题相关的第 $i$ 位微博用户在最近30天内的微博影响力, $\overset{C_{i}}{C}$ 表示用户在最近30天所发微博的平均评论量, $\overset{C_{i}}{R}$ 表示平均转发量, $\overset{C_{i}}{L}$ 表示平均点赞量, $α 、 β 、 γ$ 分别代表三者的权重系数。

（2）潜在热点主题识别模型构建

本研究将潜在热点主题识别转化为分类问题,即将潜在热点主题识别过程视作对实时舆情主题检测中获得的新主题进行判断,将其分为热门或非热门类别,其中分为热门类别的主题即为在未来有可能成为热门的主题。而在分类模型的选择上,支持向量机(SVM)、Logistic Regression、朴素贝叶斯是较为常用且理想的选择。但由于表1中特征变量之间并非相互独立,不能完全满足朴素贝叶斯的条件独立性假设,因此,选取SVM与Logistic Regression两种分类模型,利用事先人工标注好的训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}) \dots (x_{N}, y_{N})}$ 对模型进行训练,利用选定的评价指标确定最佳的潜在热点主题识别模型,该模型可用于对新增舆情主题进行分类,达到识别潜在热点主题的目的。

4 实验及结果分析

由于技术及微博平台本身的限制,无法动态、实时地获取所有用户发布的所有微博,但考虑到意见领袖在话题传播与引导方面发挥着加速传播与引导的作用,因此,从意见领袖入手,将其作为进一步实验的信息来源。意见领袖选取标准及来源如表2所示。

表2 意见领袖选取类别及参考来源

Table 2 Selection Categories and Reference Sources of Opinion Leaders

意见领袖所属类别	参考来源
政务类	微博榜单及2017年度人民日报·政务指数微博影响力报告^[20]
传统媒体类(含报纸、杂志、媒体网站等)	微博榜单
互联网类
自媒体人气大V类
娱乐类
财经类	新浪全媒体影响力排行榜^②(②http://blog.sina.com.cn/lm/bang/.)

本实验基于移动版新浪微博^①(①https://m.weibo.cn.),时间范围为2018年7月14日0点-2018年7月20日24点,选取105位意见领袖为数据采集来源,每隔1小时采集一次他们最新发布的所有微博,同时对采集到的微博进行数据预处理及主题识别工作,整个流程每隔1小时执行一次。实验期间共采集微博17 076条。

4.1 增量式实时舆情主题检测实验

利用Python语言编制增量式主题检测算法,该算法主要实现了以下7个功能：对意见领袖最新发布微博及转评赞数量的采集与自动保存;微博数据预处理;微博文本特征向量表示;微博文本聚类;聚类簇所属主题的词汇表示;新增微博与已有主题的相似度计算;微博与所属主题对应关系的自动保存。

为实现提前发现未来可能的热点主题、满足事前预警的需求,实验设置该程序每隔1小时执行一次,每次执行时长约5分钟。在实验期间内,最终聚类得到的主题数为8 787个。程序执行结果的部分效果展示如图2所示。

图2

图2 主题检测程序执行结果（部分）

Fig.2 Execution Result of Subject Detection Program (Part)

为保证下一步潜在热点主题识别实验的科学性、提高实验准确性,逐条阅览采集到的所有微博,对程序自动聚类结果进行合并与修正,对每个类别对应的主题内容进行人工归纳与总结。具体的总结规则如下：

（1）如果聚类主题与出现在微博热搜榜的某一话题属同一内容,则用微博热搜榜上对应的话题代表该聚类主题;

（2）如果聚类主题与微博热搜榜上所有话题都不属于同一内容,但聚类主题下的微博文本中包含主题标识符“【】---”或“# #”,则用主题标识符之间的内容作为该类别对应的主题内容;

（3）若以上两种情况均不满足,则采用人工总结方式为类别赋予主题内容。

上述三种规则的主题与微博示例如图3所示。

图3

图3 三种规则类别主题内容赋予示例

Fig.3 Example of Topic Content Assignment for Three Categories of Rules

4.2 基于机器学习的潜在热点主题识别实验

（1）训练样本选择

潜在热点主题识别实验选择Logistic Regression与SVM两种分类模型,均属监督学习范畴,即使用人工标注的数据集进行学习,继而利用学习好的模型进行新样本预测。考虑到人工标注的时间成本问题,及本研究的目的是为政府与企业的网络舆情监测与引导工作提供支持,因此在人工标注之前,先对4.1节实验中检测出的舆情主题进行人工筛选与过滤,得到用于人工标注的样本数量为2 143条。其中,被过滤的主题类型及具体过滤原因如表3所示。

表3 舆情主题人工过滤类型及原因说明

Table 3 Types and Reasons of Artificial Filtering of Public Opinion Topics

被过滤的主题类型	过滤原因
已登录微博热搜榜的主题	无预测价值
综合新闻或事件回顾	已失去时效性
交通、天气、股票等实时播报	日常或周期性事件,突发程度低,网络舆情监测价值或提前预警必要性较低
系列活动的日常报道
周期性事件
娱乐新闻、明星八卦	不属于本研究的目标服务群体
城市、图书、影视、音乐等推荐与分享	多数微博用户用于吸引粉丝的日常分享,不含较重大的社会事件或突发事件,监测价值较低
招聘启事、商业广告
人物访谈、人物简介、名人名言
搞笑段子、鸡汤文字
粉丝福利、日常互动
食谱、生活技巧、知识科普
便民提示、安全提醒
世界杯等体育赛事	该类事件属全民关注,极易登上微博热搜榜,提前预警的必要性低

（2）特征量化

为预测与识别潜在的热点主题,本研究提出特征变量的选取应使用动态特征,而动态特征属于时间序列特征,需要设置不同的时间间隔,考查不同时间间隔内各统计信息的变化情况。将时间窗设置为3小时,统计各主题自首次出现（即首条微博发布时间）至出现3小时（ $t_{1}$ ）、出现3小时后至出现6小时（ $t_{2}$ ）、出现6小时后至出现9小时（ $t_{3}$ ）与出现9小时后至出现12小时（ $t_{4}$ ）共4个时间窗内信息的变化量。其中,选择12小时作为时间上限的原因如下：

①考虑到有些热门主题的相关微博可能在午夜首次出现,但由于此时正处于人们休息睡眠期间,在一段时间里并不会引起广泛关注。如果时间上限设置太小,那么考查的时间间隔内各统计信息变化幅度不明显,使得热门与非热门主题区别度较低;

②经统计,本实验采集到的各热门主题首次登上热搜榜的时间与其在采集到的数据集合中首次出现的时间差值最大为95小时（该话题为#网购银环蛇被咬身亡#）,平均值约为15小时。为满足事前预警的需要,时间上限的取值应小于15小时,最终将其设置为12小时。

传播维与用户维共计32个特征项如表4所示,32个特征项最终的量化结果示例如图4所示。

表4 潜在热点主题识别特征项

Table 4 Potential Hot Topic Identification Feature Items

序号	特征	序号	特征
1	$t_{1}$ 内的主题相关微博增量	17	$t_{1}$ 内的主题相关用户粉丝互动h指数
2	$t_{1}$ 内的主题相关微博的评论增量	18	$t_{1}$ 内的主题相关用户高质量粉丝数
3	$t_{1}$ 内的主题相关微博的转发增量	19	$t_{1}$ 内的主题相关用户活跃度
4	$t_{1}$ 内的主题相关微博的点赞增量	20	$t_{1}$ 内的主题相关用户微博影响力
5	$t_{2}$ 内的主题相关微博增量	21	$t_{2}$ 内新增的主题相关用户粉丝互动h指数
6	$t_{2}$ 内的主题相关微博的评论增量	22	$t_{2}$ 内新增的主题相关用户高质量粉丝数
7	$t_{2}$ 内的主题相关微博的转发增量	23	$t_{2}$ 内新增的主题相关用户活跃度
8	$t_{2}$ 内的主题相关微博的点赞增量	24	$t_{2}$ 内新增的主题相关用户微博影响力
9	$t_{3}$ 内的主题相关微博增量	25	$t_{3}$ 内的主题相关用户粉丝互动h指数
10	$t_{3}$ 内的主题相关微博的评论增量	26	$t_{3}$ 内的主题相关用户高质量粉丝数
11	$t_{3}$ 内的主题相关微博的转发增量	27	$t_{3}$ 内的主题相关用户活跃度
12	$t_{3}$ 内的主题相关微博的点赞增量	28	$t_{3}$ 内的主题相关用户微博影响力
13	$t_{4}$ 内的主题相关微博增量	29	$t_{4}$ 内新增的主题相关用户粉丝互动h指数
14	$t_{4}$ 内的主题相关微博的评论增量	30	$t_{4}$ 内新增的主题相关用户高质量粉丝数
15	$t_{4}$ 内的主题相关微博的转发增量	31	$t_{4}$ 内新增的主题相关用户活跃度
16	$t_{4}$ 内的主题相关微博的点赞增量	32	$t_{4}$ 内新增的主题相关用户微博影响力

图4

图4 特征项提取结果示例

Fig.4 Example of Feature Item Extraction Results

（3）数据标注

实验主题样本按照以下规则进行人工标注：

①若主题样本在首次出现后的两天内登上微博热搜榜,则视为正样本,标记为1;

②若主题样本在首次出现后的两天内未登上微博热搜榜,则视为负样本,标记为0。

需要特别说明的是,存在部分热门主题其首次出现时间远远早于其登上微博热搜榜的时间,虽然这类主题最终属于热门主题,但在本研究中仍将此类主题标记为负样本,这是因为本研究将潜在热点主题定义为自其出现后较短一段时间内即可引起网民及媒体关注,而上述类型主题并不具备一经发布便能较快引起关注、成为焦点的能力,因此将其视为负样本。人工标注样本示例如图5所示。

图5

图5 人工标注部分结果示例

Fig.5 Example of Manual Labeling Results

（4）实验结果分析

通过对Logistic Regression与SVM两种分类模型准确率、召回率与F值进行比较,选择最终潜在热点主题识别模型。其中,Logistic Regression借助Python Sklearn包实现,SVM则利用台湾大学林智仁教授等开发的LIBSVM实现。

为保证模型对比与效果评价的准确性与科学性,对两种分类模型分别进行15次验证,借助LIBSVM包中subset.py程序将标注数据随机划分为训练集与测试集两部分,其中700个样本作为测试集,其余样本用作模型训练。两种分类模型效果对比结果如表5所示。

表5 潜在热点主题识别实验结果

Table 5 Results of Potential Hot Topic Identification

实验次数	Logistic Regression			SVM
实验次数	准确率	召回率	F1值	准确率	召回率	F1值
1	0.66	0.88	0.75	0.82	0.67	0.74
2	0.69	0.83	0.75	0.75	0.71	0.73
3	0.65	0.80	0.72	0.78	0.64	0.70
4	0.67	0.84	0.75	0.84	0.65	0.73
5	0.63	0.86	0.73	0.69	0.76	0.72
6	0.70	0.89	0.78	0.70	0.67	0.69
7	0.67	0.89	0.77	0.87	0.73	0.79
8	0.66	0.81	0.73	0.90	0.64	0.74
9	0.67	0.83	0.74	0.78	0.65	0.71
10	0.67	0.89	0.77	0.88	0.67	0.76
11	0.75	0.85	0.79	0.83	0.64	0.72
12	0.68	0.79	0.73	0.84	0.65	0.73
13	0.65	0.88	0.75	0.76	0.85	0.80
14	0.71	0.86	0.78	0.73	0.73	0.73
15	0.63	0.85	0.72	0.79	0.67	0.73
均值	0.67	0.85	0.75	0.80	0.69	0.73

可以看出,Logistic Regression在召回率方面表现优于SVM,而SVM具有更好的预测准确率,最高可达0.90,说明SVM在同样样本量的情况下具有更好的泛化能力,由训练数据集训练得到的预测模型也可很好地适应测试数据。虽然从F1值来看,Logistic Regression预测效果要比SVM略好,但其准确率均值不足0.70,究其原因,主要有以下两点。

①仅以部分意见领袖为信息来源,导致标注样本集中主题的各项特征值并非主题的真实反映,仅属于该主题在微博平台上真实信息量的一部分,使得一个热门主题反而与一些非热门主题表现出相似的特征分布;

②微博热搜榜单的形成离不开微博工作人员的审核与人工干预,使得一些引发网民热议的舆情主题并不能登上微博热搜榜单。由于在人工标注过程中,主题热门与非热门的判定仅取决于该主题是否在两天时间内登上过微博热搜榜,所以很多在特征分布上表现得像热门的舆情主题,由于其并未登上微博热搜榜,只能将其标注为非热门主题。

基于以上两点,Logistic Regression模型在预测过程中会将一些非热门主题归为热门类别,最终导致模型准确率下降。

笔者认为潜在热点主题识别问题,召回率相比准确率显得更为重要,因为在舆情预警工作中尽可能防患于未然,并尽量避免造成亡羊补牢的局面。因此,Logistic Regression更适合作为潜在热点主题识别模型。

5 结语

本研究将潜在热点主题的识别过程视作主题热门与否的分类问题,通过持续监测与统计主题相关的动态特征指标,将获得的数据样本经人工标注后用于模型训练,训练好的模型即可用于对后期新增主题的判别。实验整体效果显示,Logistic Regression相比于SVM更适合作为潜在热点主题识别模型,且在召回率上表现良好。本研究尚处于初探阶段,在潜在热点主题识别特征选取方面尚不全面,缺少对主题内容维度的度量,且缺少在多样化社交媒体平台的应用。未来将进一步改进上述不足,以帮助政府与企业细化、明确舆情监测重点,在舆情预警工作中化被动为主动,及早做好舆情引导工作。

作者贡献声明

丁晟春：提出研究思路,设计研究方案;

俞沣洋：提出潜在热点主题流程并进行特征量化,论文起草;

李真：参与设计研究方案,开展实验,论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: todingding@163.com。

[1]丁晟春, 俞沣洋, 李真.LabledDataSet.xls.已标注微博数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

贺恩锋, 庄林远, 徐文根 .

网络舆情潜在影响力指标体系构建及应用

[J]. 情报杂志, 2014,33(1):114-119.

( He

Enfeng

, Zhuang

Linyuan

, Xu

Wengen

The Construction and Application of Potential Influence Index System for Network Public Opinions

[J]. Journal of Intelligence, 2014,33(1):114-119.)

[2]

高俊波, 安博文, 王晓峰 .

在线论坛中潜在影响力主题的发现研究

[J]. 计算机应用, 2008,28(1):140-142.

( Gao

Junbo

, An

Bowen

, Wang

Xiaofeng

Study on Potential Influence Topic in On-line Community

[J]. Journal of Computer Appplications, 2008,28(1):140-142.)

[3]

Jamali

, Rangwala

Digging Digg: Comment Mining, Popularity Prediction, and Social Network Analysis

[C]// Proceedings of the 2009 International Conference on Web Information Systems and Mining. IEEE, 2009: 32-38.

[4]

Hong

, Dan

, Davison B

Predicting Popular Messages in Twitter

[C]// Proceedings of the 20th International Conference on World Wide Web, Hyderabad, India. 2011: 57-58.

[本文引用: 4]

[5]

Bandari

, Asur

, Huberman B

The Pulse of News in Social Media: Forecasting Popularity

[C]// Proceedings of the 6th International AAAI Conference on Weblogs and Social Media. 2012.

[本文引用: 4]

[6]

蒋玉婷

支持向量机修正ARIMA误差的微博热点预测

[J]. 计算机应用与软件, 2014,31(9):187-190.

( Jiang

Yuting

Microblogging Hot Topic Prediction Based on Correcting ARIMA Error by Support Vector Machine

[J]. Computer Applications and Software, 2014,31(9):187-190.)

[7]

, Liu

, He

, et al.

Hot Topic Trend Prediction of Topic Based on Markov Chain and Dynamic Backtracking

[C]// Proceedings of the 18th Pacific-Rim Conference on Multimedia. Springer, 2017: 517-528.

[8]

史蕊, 陈福集, 张金华 .

基于组合灰色模型的网络舆情预测研究

[J]. 情报杂志, 2018,37(7):101-106.

( Shi

Rui

, Chen

Fuji

, Zhang

Jinhua

Prediction of Online Public Opinion Based on Combination Grey Model

[J]. Journal of Intelligence, 2018,37(7):101-106.)

[9]

何炎祥, 刘健博, 孙松涛 .

基于神经网络的微博舆情预测方法

[J]. 华南理工大学学报:自然科学版, 2016,44(9):47-52.

( He

Yanxiang

, Liu

Jianbo

, Sun

Songtao

Neural Network-Based Public Opinion Prediction Method for Microblog

[J]. Journal of South China University of Technology: Natural Science Edition, 2016,44(9):47-52.)

[10]

陈江, 刘玮, 巢文涵 , 等.

融合热点话题的微博转发预测研究

[J]. 中文信息学报, 2015,29(6):150-158.

[本文引用: 3]

( Chen

Jiang

, Liu

Wei

, Chao

Wenhan

, et al.

Research on Weibo Forwarding Prediction Based on Hot Topics

[J]. Journal of Chinese Information Processing, 2015,29(6):150-158.)

[本文引用: 3]

[11]

李永兴

网络热点话题检测与趋势预测技术研究

[D]. 天津: 天津大学, 2016.

( Li

Yongxing

Research on Technologies of Hot Topic Detection and Topic Trend Prediction

[D]. Tianjin: Tianjin University, 2016.)

[12]

姚海波

微博热点话题检测与趋势预测研究

[D]. 广州: 华南理工大学, 2013.

( Yao

Haibo

Detection and Trend Prediction Research of Hot Topic of Micro-Blogging

[D]. Guangzhou: South China University of Technology, 2013.)

[13]

黄蕉平

基于微博的负面热点新闻早期预测分析

[D]. 广州: 华南理工大学, 2013.

( Huang

Jiaoping

Based on Microblogging Early Forecast and Analyze Negative Hot News

[D]. Guangzhou: South China University of Technology, 2013.)

[14]

刘跃杰

基于中文微博的话题趋势预测系统的设计与实现

[D]. 北京: 北京邮电大学, 2014.

( Liu

Yuejie

Design and Implementation of Trending Topic Prediction System Based on Chinese Microblogging

[D]. Beijing: Beijing University of Posts and Telecommunications, 2014.)

[15]

Nikolov

Trend or No Trend: A Novel Nonparametric Method for Classifying Time Series

[D]. Massachusetts Institute of Technology, 2012.

[16]

Yuan

, Tao

, Zhu

, et al.

Realtime Online Hot Topics Prediction in Sina Weibo for News Earlier Report

[C]// Proceedings of the 2017 IEEE 31st International Conference on Advanced Information Networking & Applications. IEEE, 2017: 599-650.

[17]

原福永, 冯静, 符茜茜 .

现代图书情报技术

[J].现代图书情报技术, 2012(6):60-64.

( Yuan

Fuyong

, Feng

Jing

, Fu

Qianqian

Influence Index Model of Micro-blog User

[J].New Technology of Library and Information Service, 2012(6):60-64.)

[18]

Brin

, Page

Reprint of: The Anatomy of a Large-scale Hypertextual Web Search Engine

[J]. Computer Networks, 2012,56(18):3825-3833.

[19]

Hirsch J

An Index to Quantify an Individual’s Scientific Research Output

[J]. Proceedings of the National Academy of Sciences, 2005,102(46):16569-16572.