数据分析与知识发现 2018 , 2 (8): 51-59 https://doi.org/10.11925/infotech.2096-3467.2018.0060

研究论文

基于LDA和AdaBoost多特征组合的微博情感分析^*

曾子明, 杨倩雯

武汉大学信息资源研究中心武汉 430072

Sentiment Analysis for Micro-blogs with LDA and AdaBoost

Zeng Ziming, Yang Qianwen

Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

中图分类号: TP391.1

通讯作者: 通讯作者: 曾子明, ORCID: 0000-0001-9847-0358, E-mail: zmzeng1977@aliyun.com。

收稿日期: 2018-01-17

修回日期: 2018-05-11

网络出版日期: 2018-08-25

基金资助: *本文系教育部人文社会科学重点研究基地重大项目“大数据资源的智能化管理与跨部门交互研究——面向公共安全领域”(项目编号: 16JJD870003)的研究成果之一

展开

摘要

【目的】结合基于LDA主题识别模型和AdaBoost方法以提高微博文本情感分类准确度。【方法】利用LDA提取微博文本主题分布特征, 融合情感特征和句式特征, 采用AdaBoost集成分类方法针对上述特征变量训练情感分类模型。【结果】研究结果表明, 主题特征对情感识别有显著正向作用, 基于主题特征和情感特征的模型分类效果最好。借助AdaBoost分类器使得最终情感分类准确率达到84.512%, 召回率达到83.160%。【局限】样本数量有限; 情感词典还不够完善; 同时忽略了微博文本中的表情符号等特征。【结论】本文提出的结合主题分布特征的AdaBoost模型能够有效地判别用户情感倾向。

关键词： 微博 ; 情感分析 ; LDA ; AdaBoost

Abstract

[Objective] The paper aims to improve the performance of sentiment analysis for micro-blog texts with the help of LDA model and AdaBoost algorithm. [Methods] First, we used the LDA topic model to extract topics of micro-blog posts. Then, we merged the emotional and sentence pattern features. Finally, we trained the proposed sentiment analysis model with the AdaBoost ensemble classification method. [Results] The topic feature posed significant positive impacts on emotion recognition therefore, model with topic and emotional features yielded the best results. The precision of the proposed model reached 84.512%, while the recall reached 83.160%. [Limitations] The sample size needs to be expanded, and the sentiment dictionary should be improved too. We did not study the emoticons from the micro-blog posts. [Conclusions] The proposed AdaBoost model with LDA could effectively identify emotional tendencies.

Keywords： Micro-blog ; Sentiment Analysis ; LDA ; AdaBoost

PDF (614KB) 元数据多维度评价相关文章收藏文章

本文引用格式导出 EndNote Ris Bibtex

曾子明, 杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析^*[J]. 数据分析与知识发现, 2018, 2(8): 51-59 https://doi.org/10.11925/infotech.2096-3467.2018.0060

Zeng Ziming, Yang Qianwen. Sentiment Analysis for Micro-blogs with LDA and AdaBoost[J]. Data Analysis and Knowledge Discovery, 2018, 2(8): 51-59 https://doi.org/10.11925/infotech.2096-3467.2018.0060

1 引言

近年来社会化媒体快速发展, 越来越多的网络用户选择在社交网络平台(如微博、论坛、购物网站等)表达个人意见和情感倾向。微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道^[1]。对于一些群体性的公共事件, 网民倾向于在微博上表达自己的看法和意见。这类事件往往持续时间久, 关注人数多, 在网络用户中影响巨大, 人们通过网络传达出的情感形成社会舆论, 可能会影响事件的发展, 甚至影响相关个人或组织的决策^[2]。微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情感的波动情况, 在微博中跟踪这些突发事件的讨论话题, 对微博评论进行分析, 可以还原事件的发展过程, 实时把控网民情感状况, 减少公共突发事件对社会的负面影响^[3]。因此对微博文本进行情感分析可以辅助政府进行网络舆情监测, 维持社会稳定。

自然语言处理技术快速发展, 越来越多的研究者关注于网络用户的情感分析。自然语言处理技术在用户情感分析上取得了较好效果, 但仍有许多不足, 现有研究更多从文本、句法结构等角度展开而忽略了深层语义信息。为提取更恰当的微博情感倾向特征和模型, 本文以2017年发生的微博热点事件“章莹颖案”为例, 在分析微博评论特点的基础上, 采用LDA文档主题生成模型提取微博文本的深层语义特征, 对微博正文进行语义降维, 将爬取的微博正文聚合为几类主题, 基于此构建微博评论情感分析的主题特征, 与情感特征、句式特征等融合, 借助AdaBoost集成分类方法识别微博评论情感倾向, 与支持向量机(SVM)和朴素贝叶斯方法(NB)进行性能对比, 最后评估三种分类器在情感倾向识别任务中的效能。

2 基于主题模型的微博用户情感分析研究现状

微博用户情感分析又称情感分类、评论挖掘或意见挖掘, 是指以某些特定的产品、事件为研究对象, 分析微博句子所隐含的情感状态, 评估或判断微博发布者的态度、观点及意见^[4]。现阶段主要有基于规则的方法和基于机器学习两类方法。

(1) 基于规则的方法是分析微博文本的情感特征, 借助词典与规则结合的方法判定情感倾向性^[5]。基于情感词典的方法需要构建情感词典, 人工整理具有感情色彩的词语以及程度副词、否定词等, 将情感词分为正向和负向。对需要计算感情色彩的文本提取情感词, 并为程度副词、否定词等赋予权重, 最后计算整条语句的情感得分, 判断情感倾向。基于情感词典的方法高度依赖于完善的情感词典, 在应用中需要大量人力和时间来构建情感词典, 存在很大的局限性, 且结果准确率低, 鲁棒性不够理想^[6]。

(2) 基于机器学习的方法是选择合适的情感倾向特征, 用大量预先标注的训练样本训练模型, 利用分类方法对文本的情感倾向进行预测^[7]。Pang等最早将机器学习的方法应用到社交媒体文本的情感分析中, 将情感分析看作包括正向和负向的二分类问题, 从文本中抽取unigram、bigram、词性特征、词的位置特征等, 在SVM、NB、ME等分类算法上进行实验, 实验结果表明选取unigram作为特征使用SVM模型时效果最好^[8]。在针对中文的研究中, 因为中文语法复杂, 缺乏标注的训练数据等问题, 增加了中文文本分析的难度^[9]。部分研究人员使用LDA方法降低对标注数据的需求, 毛龙龙提出一种融合LDA主题模型的半监督情感分析方法, 选择表情符号个数、情感词个数、是否出现否定词等6个特征对微博文本进行主题聚类, 根据主题类别分别训练不同的情感分类模型, 利用少量标注样本和大量未分类样本解决分类问题, F1值达到68%^[10]。苏莹等提出一种面向无指导情感分析的层次性生成模型, 将朴素贝叶斯和潜在狄利克雷分布(LDA)相结合, 自动生成独立特征, 不需标注信息即可对网络文本进行情感倾向分析, 最后总体分类准确率达到71.85%^[11]。

综上所述, 主题模型是进行语义挖掘的有力工具之一, 但是在现有将LDA和情感分析相结合的研究中, 大多将LDA与半监督或无监督学习训练方法相结合, 主要解决需大量人工标注语料的难点, 但是可以看出分类准确率并不高, 因此本文提出利用LDA方法提取微博文档主题作为情感分类的特征, 结合文本的语义特征和有监督训练方法, 提升情感分类的准确率。针对微博热点事件提取主题特征, 将主题特征结合微博短文本的情感特征和句式特征作为微博评论情感分类模型训练的特征输入, 并采用AdaBoost集成分类方法判别微博用户的情感倾向。

3 微博用户情感倾向识别模型和方法设计

本文构建的情感分类模型如图1所示, 包括4个步骤:

(1) 数据采集与预处理, 从微博平台获得所需数据, 删除无关文本, 对正文及评论文本分别进行预处理, 包括分词、字符过滤、标注情感倾向等;

(2) 利用LDA主题模型提取微博文本主题特征;

(3) 构建情感词典, 提取情感特征与句式特征;

(4) 使用AdaBoost训练模型, 得到分类效果最好的特征组合, 最后用支持向量机(SVM)和朴素贝叶斯(NB)为基准分类器评估模型性能。

显示原图| 下载原图ZIP| 生成PPT

图1 情感倾向识别模型设计

3.1 数据采集与预处理

通过爬虫软件获取新浪微博平台文本数据。数据预处理过程包括去除无关字符、文本分词、去停用词等。微博内容包含大量“#话题#”、url以及“@用户”等特殊符号, 这些信息中并不包含用户信息, 而且可能成为下一步分词、主题建模以及情感分类工作的噪声, 对结果产生负面影响^[12]。因此在进行分词前应过滤掉微博内容中的无关字符。本文通过正则表达式提取文本内容, 并使用Jieba分词包对微博文本进行分词。为降低无关词干扰, 对照停用词表去除文本中没有意义的词。此外, 对微博评论数据的情感倾向进行人工标注, 将预处理后的数据存放在本地数据库中, 进行下一步分析。

3.2 LDA主题识别模型

潜在狄利克雷分布模型(Latent Dirichlet Allocaion, LDA)是Blei等在2003年提出的文档生成模型^[13], 其在语义挖掘领域得到了广泛应用。LDA模型是一个多层的贝叶斯网络模型, 包含文档、主题、词三层^[14]。其主要思想是将每个文档看作所有主题的一个混合概率分布, 将其中的每个主题看作在单词上的一个概率分布。LDA模型中一条文本的生成过程如下^[15]:

①对于文档d, 从Dirichlet(α)抽样得到${{\theta }^{(d)}}$;

②对于主题z, 从Dirichlet$(\beta )$抽样得到${{\varphi }^{(z)}}$;

③对于每个单词wi及所属主题zi, 从多项式分布θ中抽样得到$zi=\text{P}(zi\text{ }\!\!|\!\!\text{ }\theta )$, 从多项式分布φ中抽样得到$wi=\text{P}(wi\text{ }\!\!|\!\!\text{ }zi,\varphi )$。

以LDA模型为代表的主题模型广泛应用于文本挖掘领域的研究中。利用主题建模挖掘出的主题可以帮助人们理解海量文本背后隐藏的语义, 也可以作为其他文本分析方法的输入, 完成文本分类、话题检测、自动摘要等多方面的文本挖掘任务。本文将LDA识别的主题类别作为微博用户情感分析的输入。

使用LDA主题模型需要确定最优主题数目, 本文采用主题相关性Topic Coherence指标评价LDA建模的主题质量^[16]。Topic Coherence指标通过计算一个主题中高分词语之间的语义相似性得到主题得分, 本文利用Mimno等提出的UMass主题相关性评价方法来评估主题质量^[17]。

$coherence(V)=\sum\nolimits_{(vi,vj)\in V}{score(vi,vj,\epsilon )}$ (1)

V是描述某个主题的词语集合, $\epsilon $是一个平滑因子以确保返回的得分是一个实数。

$score(vi,vj,\epsilon )=\log \frac{D(vi,vj)+\epsilon }{D(vj)}$ (2)

公式(2)是UMass度量标准的分数计算方法, 其中$D(vi,vj)$指包含词语vi和vj的微博正文数量, D(vj)表示包含词语vj的微博正文数量。本文使用Topic Coherence得分确定最合适的主题数量。

3.3 基于AdaBoost的情感分类特征选择以及词典构建

特征选择是使用AdaBoost分类器实现分类的重要环节, 分类结果的准确程度很大程度上依赖于特征选择的合理性。本文选择的特征包括主题特征、情感特征、句式特征。

(1) 心理学相关研究提出情感感染理论, 认为人们会自动模仿和合并他人的语言、非语言信息, 因此情感觉察者会融入情感传递者的情感^[13]。Facebook的一项用户研究表明, 快乐和悲伤的情感在社交网络上能更持久地传播。一条热点事件微博往往有成千上万条评论, 这些评论会影响后来的信息接受者的情感。因此本文认为同一个主题下的评论会具有相似的情感状态, 进而提出将微博文本的主题作为情感分类的特征变量输入。

(2) 情感特征用情感词来衡量, 情感词指能明显表现积极或消极态度的词语, 情感词的使用最能直接反应用户的情感状态^[18]。在情感词典的构建中, 本文主要参考HowNet整理的情感词典。在HowNet词典中, 情感词被整合在正面/负面情感词语、正面/负面评价词语等4个文档中。但由于近年来网络词语发展迅速, 产生了大量新词汇, 为提高文本分析的准确率, 对中文版HowNet词库进行更新, 原始词库共计正向情感词4 566个, 负向情感词4 370个, 本文过滤其中情感倾向不明显的词语, 人工补充添加一些网络新词, 合并词典中的情感词和评价词, 最后共有4 493个正面情感词, 4 256个负面情感词。部分新添加的情感词如表1所示。

表1 添加的部分情感词

类别	示例
正向情感词	赞、骄傲、厉害、膜拜、大神
负向情感词	喷、辣鸡、垃圾、脑残、差评、炒作、屌丝、键盘侠、细思极恐

新窗口打开

(3) 句式特征中包含否定词和转折词, 否定词的使用能够表达用户的主观态度, 并且可能改变整个语句的情感倾向, 比如“她的家人不知道怎么样了, 一点儿都不人性化, 别跟我提什么不交代没法定罪”, 否定词的连续使用致使整个句子情感倾向呈负向。本文收集一些常用的否定词以辅助文本的情感倾向分析, 表2中列出了部分否定词。复合句间的关联词语包括递进连词、并列连词、转折连词等, 递进连词和并列连词不会改变语句的情感倾向, 但转折连词的出现能够明显改变句子的情感倾向。比如“尽管不符合逻辑, 但仍然希望她还活着”。因为转折词的出现, 该文本情感倾向可以归类为正向。因此转折词在整个语句情感倾向的判断中起着至关重要的作用。表3列出了部分转折词。否定词共计255个, 转折词共计17个。

表2 部分否定词表

否定词
不	勿	非	没	未	无
休	甭	不该	不好	没有	绝非

新窗口打开

表3 部分转折词表

转折词
但	但是	然而	却	可是	不料
不过	偏偏	否则	毕竟	可惜	只是

新窗口打开

综上, 选择主题、情感、句式等特征为特征输入变量训练模型, 表4阐释了特征表示以及计量方法。

表4 构建模型选择的特征类型及含义

特征类型	特征表示	含义	特征度量
主题特征	主题类别	该条评论所属主题类别	topic=i,(i=0,1,2…)
情感特征	正向情感词	一条评论中包含正向情感词个数	pos=n,(n=0,1,2…)
情感特征	负向情感词	一条评论中包含负向情感词个数	neg=n,(n=0,1,2…)
句式特征	否定词	一条评论中包含否定词数量	nw= n,(n=0,1,2…)
句式特征	转折词	一条评论中包含转折词数量	adv=n,(n=0,1,2…)

新窗口打开

3.4 基于AdaBoost的情感分类模型训练与评估

AdaBoost分类算法由Freund和Schipare提出^[19], 是集成算法Boosting中最优秀的一种, 有坚实的理论基础, 因为其泛化错误率低、性能稳健等优势在实践中得到了很好的推广和应用^[20]。算法结合多个弱分类器, 可获得比单一学习器显著优越的泛化性能。其核心思想是针对同一个训练集训练多个分类器, 然后将这些弱分类器集合起来, 最终得到一个高性能的强分类器, 如公式(3)所示。

$H(x)=sign(\sum\nolimits_{t=1}^{T}{{{\alpha }_{t}}{{h}_{t}}(x)})$ (3)

其中, T为基学习器数量, ${{\alpha }_{t}}$为第t个弱分类器的权重, ${{h}_{t}}$为进行训练的弱分类器。

在用户情感分类模型中, 以决策树作为AdaBoost的基学习器, 将标注后的微博评论数据作为初始训练集训练T个基学习器, 根据基学习器的表现对训练样本分布进行调整, 分类错误的样本加大其对应的权重, 降低正确分类样本的权重, 得到新的样本分布, 将修改权值的样本分布送给下层分类器进行训练。重复进行, 直到基学习器数目达到事先指定的T值, 得到T个弱分类器, 最后将这T个弱分类器按相应权重融合(Boost)起来, 作为最后的决策分类器。以支持向量机和朴素贝叶斯方法为基准分类器进行对比实验, 评估模型分类效果。

4 实验结果及分析

4.1 数据收集及预处理

以北京大学留学生章莹颖在美国失踪案为例, 该事件持续时间长, 多次登上微博热搜, 引起了国内网民的广泛关注。数据爬取过程及预处理分为两个阶段:

第一阶段以“章莹颖案”为关键词爬取2017-06-11到2017-11-06的热点微博共计688条, 数据包括微博内容、发布机构、发布时间、点赞数、转发数等, 预处理过程包括对微博文本去除无关字符、进行文本分词、去停用词, 主要用来提取主题特征;

第二阶段为对热点微博进行LDA建模后根据选择的微博主题爬取对应的微博评论, 获得2 400条评论数据, 包括评论内容、评论人、评论人数等。在筛选删除原始数据中的缺失、冗余、无关数据后, 最终得到1 426条评论数据, 本文对评论数据的预处理包括人工标记情感倾向, 过滤无关字符串, 文本分词, 对评论中的情感词、否定词、转折词等对照情感词典进行计数。实验语料如表5所示。

表5 实验语料统计结果

主题	正向	负向	合计
Topic_1	158	99	257
Topic_2	68	157	225
Topic_3	36	217	253
Topic_4	169	70	239
Topic_5	44	181	225
Topic_6	20	207	227
合计	495	931	1 426

新窗口打开

4.2 主题特征提取

依据公式(3)计算出主题个数在2-30区间内主题相关性(Topic Coherence)的值, 实验结果如图2所示, 横轴表示主题个数, 纵轴表示Topic Coherence值。可以看出, 随着主题个数的增加, Topic Coherence值逐渐减小且趋于稳定。但主题数越多, LDA模型计算代价越大, 也容易过拟合^[21]。在主题个数为18时, 产生一个局部极小值, 因此综合Topic Coherence值和主题数量, 本文选择18作为LDA模型的主题参数值。

显示原图| 下载原图ZIP| 生成PPT

图2 主题数-主题相关性

确定主题个数后, 将预处理后的微博正文数据集用于LDA模型训练, 利用LDA模型训练得到18个主题, 在18个主题中选择意义明确、容易解释且处于事件不同阶段的6个主题用于下一步的情感分析。选取概率值最高的前6个词表示这6个主题, 如表6所示。

表6 LDA提取的主题词分布

主题	Topic_1	Topic_2	Topic_3	Topic_4	Topic_5	Topic_6
主题词	交流0.0300 失联0.0244 厄巴纳0.0201 签0.0193 租房0.0192 硕士0.0180	小镇0.0367 塞勒姆0.0360 女孩0.0314 此前0.0139 伊利诺伊州0.0139 曾见0.0138	联邦调查局0.0548 死亡0.0476 一名0.0473 男子0.0428 逮捕0.0412 涉嫌0.0393	警察0.0418 模糊0.0413 震惊0.0398 画像0.0396 林宇辉0.0318 手绘0.0237	网站0.0190 疑犯0.0182 变态0.0165 潜入0.0137 呼吁0.0127 会员0.0119	捐款0.0503 家人0.0305 质疑0.0265 回应0.0223 用法0.0194 用于0.0166
主题含义	事件发生背景	受害人出现地点	嫌犯逮捕	手绘嫌犯画像	变态网站	回应捐款质疑

新窗口打开

这些主题词能较清晰地反映微博主题, 在这6个特定主题下, 可以找到能反映主题的相关微博。选取相应的微博正文并抓取其微博评论, 选择的部分微博文本如表7所示。

表7 选择的微博文本示例

主题	微博文本
Topic_1 (事件发生背景)	【急转！北大女硕士赴美国交流时失联, 目前已超50小时】章莹颖, 女, 25岁, 中大本科、北大硕士、中科院助理研究员, 于今年4月前往美国UIUC伊利诺伊大学厄巴纳-香槟分校交流。当地时间9日, 小章外出签租房合同时失联, 目前已报警。
Topic_2 (受害人出现地点)	在一个名为塞勒姆(Salem)的小镇, 多名目击者声称在这里看到过章莹颖。塞勒姆镇位于章莹颖失踪地点伊利诺伊大学香槟分校西南约200公里。章莹颖的家人在Salem当地沿街走访, 有七个人分别向家人证实了他们曾见过章莹颖。
Topic_3 (嫌犯逮捕)	美国联邦调查局已经逮捕一名涉嫌绑架中国访问学者章莹颖的27岁男子。联邦调查局表示, 相信章莹颖已经死亡。
Topic_4 (手绘嫌犯画像)	6月23日, 中国警察林宇辉根据非常模糊的监控画面, 手绘出“章莹颖失踪案”嫌犯, 逼真程度震惊美国警方。7月 1日, 嫌疑人已被美国警方抓获。
Topic_5 (变态网站)	【记者潜入“全球第一变态网” 提章莹颖被封号】近日, #北大女硕士在美失联#案引发国内外广泛关注, 此案中, 一个涉嫌教唆疑犯进行绑架的变态网站也引起了大家注意。据悉, 此网站有500多万会员, 多名会员从网站学到“技术”后犯下重罪, 记者潜入网站, 发帖问章莹颖案就被“踢出”。
Topic_6 (回应捐款质疑)	【章莹颖家属已募得14万美元, 款项用途悄然变更遭质疑】章莹颖在美失踪70多天, 当地时间22日下午举行的新闻发布会上, 介绍了章家人几天前向特朗普提交的请愿信内容, 以及募集到的14.4万美元捐款主要用途及使用情况说明。但有不少捐款网友留言对筹款上限一再提高表示了质疑。

新窗口打开

4.3 多特征的AdaBoost模型

为研究各特征变量对情感分类效果的影响, 本文选择不同的特征组合构造模型并用AdaBoost算法进行训练和测试, 由此选出最好的特征项组合方式。模型1包含主题特征, 模型2包括情感特征, 模型3为主题特征和情感特征的组合, 模型4包含情感特征和句式特征, 模型5包括主题特征、情感特征和句式特征, 如表8所示。将1 426条评论数据以7:3的比例分为训练集和测试集, 并用相关指标评价分类结果。

表8 模型-特征变量

模型	主题特征	情感特征	句式特征
1	√
2		√
3	√	√
4		√	√
5	√	√	√

新窗口打开

评价二分类模型性能的常用指标为正确率P(Precision)、召回率R(Recall)、F1值以及AUC值。Precision指模型对关注类的正确分类的文本数占测试集该类实际文本数的比例, Recall指关注类的正确分类文本数占测试集中分到该类的文本数量的比例。F1值是一个综合度量指标, 是准确率和召回率的调和平均值, AUC为ROC曲线下的面积。F1和AUC值越高, 分类器分类效果越好。AdaBoost模型不同特征组合实验结果如表9所示。

表9 AdaBoost模型不同特征组合实验结果

模型	Precision	Recall	F1-score	AUC
1	74.808%	75.248%	66.667%	0.752
2	81.887%	78.150%	71.146%	0.781
3	84.512%	83.160%	77.778%	0.832
4	84.283%	78.651%	72.131%	0.787
5	83.313%	82.282%	76.471%	0.823

新窗口打开

从表9可以看出在5个模型中, 模型3在准确率、召回率、F值以及AUC值均有最好的结果。说明主题特征在用户情感倾向分类的判别中起到正向作用。句式特征, 即句中转折词、否定词的加入对情感分类效果与仅使用情感词相比有少量提升, 与模型3中使用情感特征和主题特征相比, 句式特征的加入甚至对结果有负向干扰作用。句式特征效果不好的原因可能有两个: 其一, 用出现次数来统计否定词、转折词的方法不够合理; 其二, 原始数据中句式特征出现大量空值, 对实验结果产生影响。

4.4 AdaBoost算法分类性能比较

为评估AdaBoost在情感倾向识别问题中的性能, 选择支持向量机(Support Vector Machine)和朴素贝叶斯(Naïve Bayes)分类算法为基准分类器, 进行性能比较, 绘制ROC曲线并计算AUC值以评估模型分类效果。将模型3包含的特征, 即主题特征和情感特征变量作为三种分类算法的输入特征变量。利用十折交叉验证法将样本数据分为10份, 对每份数据计算AUC值, 对10次计算的结果取平均值, 绘制平均ROC曲线。支持向量机属于非概率分类器, 通过构造一个超平面实现良好的分类划界, 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势^[22], 本文使用基于线性核函数的SVM进行模型训练。朴素贝叶斯算法实现容易且速度较快, 适合处理大规模数据^[23]。模型训练结果如图3所示。

显示原图| 下载原图ZIP| 生成PPT

图3 ROC曲线

图3中横轴表示假正例率(False Positive Rate, FPR), 即将样本中反例被判别为正例的概率, 纵轴表示真正例率(True Positive Rate, TPR), 即样本中正例被模型识别为正例的概率, ROC曲线即在一系列不同阈值下计算对应的FPR和TPR值^[24]。ROC曲线可平衡准确率和召回率, 是实验准确性的综合代表。ROC曲线下的面积即为AUC值, AUC值在0.7到0.9之间表示实验准确性高。图3中AdaBoost模型的AUC值达到0.82, 说明预测效果良好, 而支持向量机和朴素贝叶斯方法得到的AUC值分别为0.65和0.68, 说明在本实验中分类效果较差。综上所述, AdaBoost在以主题和情感词为特征变量输入时的微博用户情感倾向分类中有较好表现, 能够较为准确地识别用户情感倾向。

5 结语

在网络环境越来越开放的现代社会, 更多人选择通过网络表达自己的情感。实时关注网民的情感状态对维持社会稳定、避免负面消息的传播有重要意义。本文提出一种基于主题特征和情感特征的公共热点事件微博用户情感分类方法, 综合考虑微博文本的特点, 选择主题特征、情感特征以及句式特征, 将特征输入AdaBoost分类模型, 提出微博用户情感倾向分析的实验方案。对从微博抓取的语料进行实证研究, 并取得了较好的效果。实验表明, 增加主题特征对微博用户情感分类效果有显著的正向影响, AdaBoost模型情感分类的准确率达到84.51%。

当然实验也有很多不足之处, 关于用户情感分析的研究还有大量值得继续探索的工作, 有很大的提升空间。后续的研究将从以下方面继续完善:

(1) 情感词典对实验效果至关重要, 本文在HowNet情感词典的基础上增加了相关网络词汇, 但仍不够完善, 需要继续丰富;

(2) 本文重点验证了主题、情感词、否定词、转折词等特征对情感分类效果的影响, 但微博文本还包含大量表情符、感叹词及标点符号, 在表达用户情感方面有重要作用, 未来将加入更多特征训练学习模型;

(3) 用户语言表达的情感是多层次的, 正向包括“高兴的”“激动的”, 负向包括“紧张的”“恐惧的”等, 本文将其情感归类为正向和负向, 这为计算提供了便利, 但同时也丢失了很多信息^[25]。因此下一步将对情感进行更细粒度的划分。

作者贡献声明

曾子明: 提出研究选题和思路, 设计研究方案和技术路线, 论文修改和最终版本修订;

杨倩雯: 构建实验模型和设计算法, 数据采集和分析, 论文撰写。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 952038983@qq.com。

[1] 杨倩雯. data1.zip. 原始微博数据.

[2] 杨倩雯. data2.zip. 特征提取表.

[3] 杨倩雯. dictionary.zip. 情感词典.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]	何跃, 朱灿. 基于微博的意见领袖网情感特征分析——以“非法疫苗”事件为例 [J]. 数据分析与知识发现, 2017, 1(9): 65-73. [本文引用: 1] (He Yue, Zhu Can. Sentiment Analysis of Weibo Opinion Leaders—Case Study of ‘Illegal Vaccine’ Event [J]. Data Analysis and Knowledge Discovery, 2017, 1(9): 65-73.) [本文引用: 1]
[2]	徐健. 基于网络用户情感分析的预测方法研究 [J]. 中国图书馆学报, 2013, 39(3): 96-107. https://doi.org/10.3969/j.issn.1001-8867.2013.03.022 URL Magsci [本文引用: 1] 摘要网络用户情感分析领域的研究为特定领域社会行为的预测提供了新的方法和工具。本文分析了基于情感分析进行预测的逻辑基础、典型预测方法、关键技术以及当前存在的问题和发展趋势。研究发现:研究基于网络用户情感分析预测社会活动趋势的方法在政治、财经等多个领域具备应用条件；典型预测方法可归纳为以情感分析结果作为辅助依据的预测方法和以情感分析结果作为主要依据的预测方法；预测过程涉及情感分析源的选择、预测时间提前量的确定以及情感词统计处理三个关键环节；当前研究还存在网络用户情感的代表性,待分析语料的全面和正确获取,以及网络用户情感的正确分析和统计等问题,有待深入研究。图2。参考文献47。 (Xu Jian. Research on Predicting Methods Based on Network User Sentiment Analysis [J]. Journal of Library Science in China, 2013, 39(3): 96-107.) https://doi.org/10.3969/j.issn.1001-8867.2013.03.022 URL Magsci [本文引用: 1] 摘要网络用户情感分析领域的研究为特定领域社会行为的预测提供了新的方法和工具。本文分析了基于情感分析进行预测的逻辑基础、典型预测方法、关键技术以及当前存在的问题和发展趋势。研究发现:研究基于网络用户情感分析预测社会活动趋势的方法在政治、财经等多个领域具备应用条件；典型预测方法可归纳为以情感分析结果作为辅助依据的预测方法和以情感分析结果作为主要依据的预测方法；预测过程涉及情感分析源的选择、预测时间提前量的确定以及情感词统计处理三个关键环节；当前研究还存在网络用户情感的代表性,待分析语料的全面和正确获取,以及网络用户情感的正确分析和统计等问题,有待深入研究。图2。参考文献47。
[3]	崔安颀. 微博热点事件的公众情感分析研究 [D]. 北京: 清华大学, 2013. [本文引用: 1] (Cui Anqi. Study on Public Sentiment Analysis of Events in Microblogs [D]. Beijing: Tsinghua University, 2013.) [本文引用: 1]
[4]	Pang B, Lee L. Opinion Mining and Sentiment Analysis [J]. Foundations and Trends in Information Retrival, 2008, 2(1-2): 1-135. https://doi.org/10.1561/1500000011 URL [本文引用: 1] 摘要 An important part of our information-gathering behavior has always been to find out what other people think. With the growing availability and popularity of opinion-rich resources such as online review sites and personal blogs, new opportunities and challenges arise as people now can, and do, actively use information technologies to seek out and understand the opinions of others. The sudden eruption of activity in the area of opinion mining and sentiment analysis, which deals with the computational treatment of opinion, sentiment, and subjectivity in text, has thus occurred at least in part as a direct response to the surge of interest in new systems that deal directly with opinions as a first-class object. This survey covers techniques and approaches that promise to directly enable opinion-oriented information-seeking systems. Our focus is on methods that seek to address the new challenges raised by sentiment-aware applications, as compared to those that are already present in more traditional fact-based analysis. We include material on summarization of evaluative text and on broader issues regarding privacy, manipulation, and economic impact that the development of opinion-oriented information-access services gives rise to. To facilitate future work, a discussion of available resources, benchmark datasets, and evaluation campaigns is also provided. <!-- .bsa-cpc #_default_:before { display: block; margin: 1em auto; padding-top: 1em; max-width: 940px; border-top: solid 1px #b7babc; color: #8a9299; content: "Advertisements"; text-align: center; text-transform: uppercase; font-weight: bold; font-size: 0.8em; } .bsa-cpc #_default_ { position: relative; overflow: hidden; margin: 2em 0; margin: 0 auto; padding-bottom: 3em; max-width: 940px; border-bottom: solid 1px #b7babc; font-size: 11px; line-height: 1.5; justify-content: center; } .bsa-cpc .default-ad { display: none; } .bsa-cpc ._default_ { position: relative; display: block; float: left; overflow: hidden; margin: 0 .4em; padding: 1em; max-width: 30%; border-radius: 3px; background-color: #ece9d8; text-align: left; line-height: 1.5; } .bsa-cpc a { color: #1d4d0f; text-decoration: none !important; } .bsa-cpc a:hover { color: red; } .bsa-cpc .default-image img { display: block; float: left; margin-right: 10px; width: 36px; border-radius: 7.5%; } .bsa-cpc .default-title, .bsa-cpc .default-description { display: block; margin-left: 46px; max-width: calc(100% - 36px); } .bsa-cpc .default-title { font-weight: 600; } .bsa-cpc .default-description:after { position: absolute; top: 4px; right: 4px; padding: 1px 4px; color: hsla(0, 0%, 20%, .3); content: "Ad"; text-transform: uppercase; font-size: 7px; } @media only screen and (min-width: 320px) and (max-width: 759px) { .bsa-cpc #_default_ { flex-wrap: wrap; } .bsa-cpc ._default_ { float: none; margin: 0 1em .5em; max-width: 100%; } } (function(){ if(typeof _bsa !== 'undefined' && _bsa) { _bsa.init('default', 'CVADE2QJ', 'placement:acmorg', { target: '.bsa-cpc', align: 'horizontal', disable_css: 'true' }); } })();
[5]	陈晓东. 基于情感词典的中文微博情感倾向分析研究 [D].武汉: 华中科技大学, 2012. [本文引用: 1] (Chen Xiaodong. Research on Sentiment Dictionary Based Emotional Tendency Analysis of Chinese MicroBlog [D]. Wuhan: Huazhong University of Science and Technology, 2012.) [本文引用: 1]
[6]	史伟, 王洪伟, 何绍义. 基于语义的中文在线评论情感分析 [J]. 情报学报, 2013, 32(8): 860-867. https://doi.org/10.3772/j.issn.1000-0135.2013.08.009 URL [本文引用: 1] 摘要为解决传统的情感分析方法中存在的语义理解能力不足和情感分析不充分问题，本文从语义的角度，运用构建模糊情感本体的方法，对中文在线评论情感分析进行研究。引入情感空间模型，并将传统的在线评论情感分析细分为特征评价和情绪表达两方面。基于已建立的模糊情感本体，对产品（服务）的特征、情感类和强度、程度词、否定词、修辞方法和标点等语义元素进行标注，构建从句子层到文档层的情感计算方法。选取有代表性的评论语料进行实验，结果表明建立的情感分析方法具有优良的准确性和应用性，进一步分析发现不同评论语料中情感具有不同的表达形式和关联关系。 (Shi Wei, Wang Hongwei, He Shaoyi. Sentiment Analysis of Chinese Online Reviews Based on Semantics [J]. Journal of the China Society for Scientific and Technical Information, 2013, 32(8): 860-867.) https://doi.org/10.3772/j.issn.1000-0135.2013.08.009 URL [本文引用: 1] 摘要为解决传统的情感分析方法中存在的语义理解能力不足和情感分析不充分问题，本文从语义的角度，运用构建模糊情感本体的方法，对中文在线评论情感分析进行研究。引入情感空间模型，并将传统的在线评论情感分析细分为特征评价和情绪表达两方面。基于已建立的模糊情感本体，对产品（服务）的特征、情感类和强度、程度词、否定词、修辞方法和标点等语义元素进行标注，构建从句子层到文档层的情感计算方法。选取有代表性的评论语料进行实验，结果表明建立的情感分析方法具有优良的准确性和应用性，进一步分析发现不同评论语料中情感具有不同的表达形式和关联关系。
[7]	韩旭. 社交网络中短文本情感分析技术研究 [D]. 天津: 天津大学, 2014. [本文引用: 1] (Han Xu. Research on Technology of Short-Text Sentiment Analysis in Social Network [D].Tianjin: Tianjin University, 2014.) [本文引用: 1]
[8]	Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification Using Machine Learning Techniques [C]// Proceedings of Conference on Empirical Methods in Natural Language Processing. 2002: 79-86. [本文引用: 1]
[9]	丁晟春, 孟美任, 李霄. 面向中文微博的观点句识别研究 [J]. 情报学报, 2014, 33(2): 175-182. [本文引用: 1] (Ding Shengchun, Meng Meiren, Li Xiao. Study of Subjective Sentence Identification Oriented to Chinese Microblog [J]. Journal of the China Society for Scientific and Technical Information, 2014, 33(2): 175-182.) [本文引用: 1]
[10]	毛龙龙. 基于LDA模型的微博情感分析技术研究 [D]. 兰州: 西北师范大学, 2015. [本文引用: 1] (Mao Longlong. Research on Microblog Sentiment Analysis Technology Based the LDA Model [D]. Lanzhou: Northwest Normal University, 2015.) [本文引用: 1]
[11]	苏莹, 张勇, 胡珀, 等. 基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 [J]. 计算机应用, 2016, 36(6): 1613-1618. https://doi.org/10.11772/j.issn.1001-9081.2016.06.1613 Magsci [本文引用: 1] 摘要针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 (Su Ying, Zhang Yong, Hu Po, et al. Sentiment Analysis Research Based on Combination of Naive Bayes and Latent Dirichlet Allocation [J]. Journal of Computer Applications, 2016, 36(6): 1613-1618.) https://doi.org/10.11772/j.issn.1001-9081.2016.06.1613 Magsci [本文引用: 1] 摘要针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。
[12]	唐晓波, 朱娟, 杨丰华. 基于情感本体和kNN算法的在线评论情感分类研究 [J]. 情报理论与实践, 2016, 39(6): 110-114. URL [本文引用: 1] 摘要 [目的/意义]构建针对网络在线评论的情感分析模型,一方面可以为用户决策提供支持;另一方面又可以帮助产品或服务提供商了解用户情感倾向,提升用户体验。[方法/过程]提出了基于情感本体和k NN算法的在线评论情感分类模型。该模型基于情感本体,通过对情感词数量和情感程度进行加权,提出了褒义量和贬义量的概念,并以此作为k NN算法的特征向量。通过爬取豆瓣网电影评论进行训练和测试,并分别从褒性评论和贬性评论的角度对分类效果进行评价。[结果/结论]结果表明,本算法在分类准确率和召回率方面都具有不错的水平,但同时对贬性评论分类效果优于褒性评论,为未来研究提供了新的思路。 (Tang Xiaobo, Zhu Juan, Yang Fenghua. Research on Emotional Classification of Online Reviews Based on Emotional Ontology and kNN Algorithm [J]. Information Studies: Theory & Application, 2016, 39(6): 110-114.) URL [本文引用: 1] 摘要 [目的/意义]构建针对网络在线评论的情感分析模型,一方面可以为用户决策提供支持;另一方面又可以帮助产品或服务提供商了解用户情感倾向,提升用户体验。[方法/过程]提出了基于情感本体和k NN算法的在线评论情感分类模型。该模型基于情感本体,通过对情感词数量和情感程度进行加权,提出了褒义量和贬义量的概念,并以此作为k NN算法的特征向量。通过爬取豆瓣网电影评论进行训练和测试,并分别从褒性评论和贬性评论的角度对分类效果进行评价。[结果/结论]结果表明,本算法在分类准确率和召回率方面都具有不错的水平,但同时对贬性评论分类效果优于褒性评论,为未来研究提供了新的思路。
[13]	Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用: 2]
[14]	张培晶, 宋蕾. 基于LDA的微博文本主题建模方法研究述评 [J]. 图书情报工作, 2012, 56(24): 120-126. URL Magsci [本文引用: 1] 摘要 <p>在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。</p> (Zhang Peijing, Song Lei. Overview on Topic Modeling Method of Microblogs Text Based on LDA [J]. Library and Information Service, 2012, 56(24): 120-126.) URL Magsci [本文引用: 1] 摘要 <p>在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。</p>
[15]	唐晓波, 向坤. 基于LDA模型和微博热度的热点挖掘 [J].图书情报工作, 2014, 58(5): 58-63. https://doi.org/10.13266/j.issn.0252-3116.2014.05.010 URL [本文引用: 1] 摘要分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点；考虑到微博本身的数据特点和信息论中信息量的观点，提出微博热度的概念，并将其引入到LDA模型的热点挖掘研究中，构建基于微博热度的LDA模型；通过API采集微博数据上的实验，证明新方法与旧方法具有相同的性能，而且能得到更直观的微博热度表，并得出更具有说服力的挖掘结论。 (Tang Xiaobo, Xiang Kun. Hotspot Mining Based on LDA Model and Microblog Heat [J]. Library and Information Service, 2014, 58(5): 58-63.) https://doi.org/10.13266/j.issn.0252-3116.2014.05.010 URL [本文引用: 1] 摘要分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点；考虑到微博本身的数据特点和信息论中信息量的观点，提出微博热度的概念，并将其引入到LDA模型的热点挖掘研究中，构建基于微博热度的LDA模型；通过API采集微博数据上的实验，证明新方法与旧方法具有相同的性能，而且能得到更直观的微博热度表，并得出更具有说服力的挖掘结论。
[16]	Stevens K, Kegelmeyer P, Andrzejewski D, et al. Exploring Topic Coherence over Many Models and Many Topics [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea. 2012. [本文引用: 1]
[17]	Mimno D, Wallach H M, Talley E, et al. Opitimizing Semantic Coherence in Topic Models [C]//Proceedings of Conference on Emperical Methods in Natural Language Processing.2011: 262-272. [本文引用: 1]
[18]	Hatfield E, Cacioppo J L, Rapson R L. Emotional Contagion [J]. Current Directions in Psychological Sciences, 1993, 2: 96-99. https://doi.org/10.1111/1467-8721.ep10770953 URL [本文引用: 1]
[19]	Freund Y, Schipare R E. A Decision-Theoretic Generalization of On-line Learning and an Application to Boosting [C]// Proceedings of the 2nd European Conference on Computational Learning Theory. 1995: 23-37. [本文引用: 1]
[20]	曹莹, 苗启广, 刘家辰, 等. AdaBoost算法研究进展与展望 [J]. 自动化学报, 2013, 39(6): 745-758. https://doi.org/10.3724/SP.J.1004.2013.00745 URL Magsci [本文引用: 1] 摘要 <p>AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善.</p> (Cao Ying, Miao Qiguang, Liu Jiachen. Advance and Prospects of AdaBoost Algorithm [J]. Acta Automatica Sinica, 2013, 39(6): 745-758.) https://doi.org/10.3724/SP.J.1004.2013.00745 URL Magsci [本文引用: 1] 摘要 <p>AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善.</p>
[21]	张志飞, 苗夺谦, 高灿. 基于LDA主题模型的短文本分类方法 [J]. 计算机应用, 2013, 33(6): 1587-1590. https://doi.org/10.3724/SP.J.1087.2013.01587 Magsci [本文引用: 1] 摘要针对短文本的特征稀疏性和上下文依赖性两个问题，提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题，一方面区分相同词的上下文，降低权重；另一方面关联不同词以减少稀疏性，增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类，实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。 (Zhang Zhifei, Miao Duoqian, Gao Can. Short Text Classification Using Latent Dirichlet Allocation [J]. Journal of Computer Application, 2013, 33(6): 1587-1590.) https://doi.org/10.3724/SP.J.1087.2013.01587 Magsci [本文引用: 1] 摘要针对短文本的特征稀疏性和上下文依赖性两个问题，提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题，一方面区分相同词的上下文，降低权重；另一方面关联不同词以减少稀疏性，增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类，实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。
[22]	王义真, 郑啸, 后盾, 等. 基于SVM的高维混合特征短文本情感分类 [J]. 计算机技术与发展, 2018, 28(2): 88-93. URL [本文引用: 1] 摘要针对短文本具有的稀疏性、不规范性、主题不明确性等相关特点,提出一种基于SVM的高维混合特征模型。首先介绍了兼顾语义和情感的6类特征:表情符号特征、词聚类特征、词性标注特征、n-gram特征、否定特征和情感词典。其中主要介绍了该6类特征的概念、抽取方式以及输出形式;其次在第六届中文倾向性分析评测(COAE2014)为基础的数据集上,采用5折交叉的方法对该模型进行了有效性验证,其平均准确率为84.69%、平均召回率为83.13%,而平均F1值为83.90%;接着探讨了SVM惩罚系数对实验的影响;最后将该模型与一步三分类方法、Recursive Auto Encoder、Doc2vec做了对比分析,结果表明提出的模型对短文本情感分类更有效。 (Wang Yizhen, Zheng Xiao, Hou Dun, et al. Short Text Sentiment Classification of High Dimensional Hybrid Feature Based on SVM [J]. Computer Technology and Development, 2018, 28(2): 88-93.) URL [本文引用: 1] 摘要针对短文本具有的稀疏性、不规范性、主题不明确性等相关特点,提出一种基于SVM的高维混合特征模型。首先介绍了兼顾语义和情感的6类特征:表情符号特征、词聚类特征、词性标注特征、n-gram特征、否定特征和情感词典。其中主要介绍了该6类特征的概念、抽取方式以及输出形式;其次在第六届中文倾向性分析评测(COAE2014)为基础的数据集上,采用5折交叉的方法对该模型进行了有效性验证,其平均准确率为84.69%、平均召回率为83.13%,而平均F1值为83.90%;接着探讨了SVM惩罚系数对实验的影响;最后将该模型与一步三分类方法、Recursive Auto Encoder、Doc2vec做了对比分析,结果表明提出的模型对短文本情感分类更有效。
[23]	贺鸣, 孙建军, 成颖. 基于朴素贝叶斯的文本分类研究综述 [J]. 情报科学, 2016, 34(7): 147-154. URL Magsci [本文引用: 1] 摘要文本自动分类是自然语言处理领域的重要分支之一，已经形成了大量的模型以及算法，其中基于朴素贝叶斯的相关研究是该领域持续的热点。本文对基于朴素贝叶斯的文本自动分类研究进行了系统的综述。探讨了多项式模型和多元伯努利模型等经典的朴素贝叶斯分类方法。重点分析了经典的特征选择方法以及包括ALOFT等在内的多种改进的特征选择方法。论文还对从加权、避免平滑等视角的NB改进算法进行了梳理。最后，提出了进一步改进NB的主要思路。 (He Ming, Sun Jianjun, Cheng Ying. Text Classification Based on Naïve Bayes: A Review [J]. Information Science, 2016, 34(7): 147-154.) URL Magsci [本文引用: 1] 摘要文本自动分类是自然语言处理领域的重要分支之一，已经形成了大量的模型以及算法，其中基于朴素贝叶斯的相关研究是该领域持续的热点。本文对基于朴素贝叶斯的文本自动分类研究进行了系统的综述。探讨了多项式模型和多元伯努利模型等经典的朴素贝叶斯分类方法。重点分析了经典的特征选择方法以及包括ALOFT等在内的多种改进的特征选择方法。论文还对从加权、避免平滑等视角的NB改进算法进行了梳理。最后，提出了进一步改进NB的主要思路。
[24]	周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. [本文引用: 1] (Zhou Zhihua.Machine Learning[M]. Beijing: Tsinghua University Press, 2016.) [本文引用: 1]
[25]	敦欣卉, 张云秋, 杨铠西. 基于微博的细粒度情感分析 [J].数据分析与知识发现, 2017, 1(7): 61-72. [本文引用: 1] (Guo Xinhui, Zhang Yunqiu, Yang Kaixi. Fine-grained Sentiment Analysis Based on Weibo [J]. Data Analysis and Knowledge Discovery, 2017, 1(7): 61-72.) [本文引用: 1]

基于微博的意见领袖网情感特征分析——以“非法疫苗”事件为例

2017

... 近年来社会化媒体快速发展, 越来越多的网络用户选择在社交网络平台(如微博、论坛、购物网站等)表达个人意见和情感倾向.微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道^[1].对于一些群体性的公共事件, 网民倾向于在微博上表达自己的看法和意见.这类事件往往持续时间久, 关注人数多, 在网络用户中影响巨大, 人们通过网络传达出的情感形成社会舆论, 可能会影响事件的发展, 甚至影响相关个人或组织的决策^[2].微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情感的波动情况, 在微博中跟踪这些突发事件的讨论话题, 对微博评论进行分析, 可以还原事件的发展过程, 实时把控网民情感状况, 减少公共突发事件对社会的负面影响^[3].因此对微博文本进行情感分析可以辅助政府进行网络舆情监测, 维持社会稳定. ...

基于微博的意见领袖网情感特征分析——以“非法疫苗”事件为例

2017

基于网络用户情感分析的预测方法研究

2013

基于网络用户情感分析的预测方法研究

2013

微博热点事件的公众情感分析研究

2013

微博热点事件的公众情感分析研究

2013

Opinion Mining and Sentiment Analysis

2008

... 微博用户情感分析又称情感分类、评论挖掘或意见挖掘, 是指以某些特定的产品、事件为研究对象, 分析微博句子所隐含的情感状态, 评估或判断微博发布者的态度、观点及意见^[4].现阶段主要有基于规则的方法和基于机器学习两类方法. ...

基于情感词典的中文微博情感倾向分析研究

2012

... (1) 基于规则的方法是分析微博文本的情感特征, 借助词典与规则结合的方法判定情感倾向性^[5].基于情感词典的方法需要构建情感词典, 人工整理具有感情色彩的词语以及程度副词、否定词等, 将情感词分为正向和负向.对需要计算感情色彩的文本提取情感词, 并为程度副词、否定词等赋予权重, 最后计算整条语句的情感得分, 判断情感倾向.基于情感词典的方法高度依赖于完善的情感词典, 在应用中需要大量人力和时间来构建情感词典, 存在很大的局限性, 且结果准确率低, 鲁棒性不够理想^[6]. ...

基于情感词典的中文微博情感倾向分析研究

2012

基于语义的中文在线评论情感分析

2013

基于语义的中文在线评论情感分析

2013

社交网络中短文本情感分析技术研究

2014

... (2) 基于机器学习的方法是选择合适的情感倾向特征, 用大量预先标注的训练样本训练模型, 利用分类方法对文本的情感倾向进行预测^[7].Pang等最早将机器学习的方法应用到社交媒体文本的情感分析中, 将情感分析看作包括正向和负向的二分类问题, 从文本中抽取unigram、bigram、词性特征、词的位置特征等, 在SVM、NB、ME等分类算法上进行实验, 实验结果表明选取unigram作为特征使用SVM模型时效果最好^[8].在针对中文的研究中, 因为中文语法复杂, 缺乏标注的训练数据等问题, 增加了中文文本分析的难度^[9].部分研究人员使用LDA方法降低对标注数据的需求, 毛龙龙提出一种融合LDA主题模型的半监督情感分析方法, 选择表情符号个数、情感词个数、是否出现否定词等6个特征对微博文本进行主题聚类, 根据主题类别分别训练不同的情感分类模型, 利用少量标注样本和大量未分类样本解决分类问题, F1值达到68%^[10].苏莹等提出一种面向无指导情感分析的层次性生成模型, 将朴素贝叶斯和潜在狄利克雷分布(LDA)相结合, 自动生成独立特征, 不需标注信息即可对网络文本进行情感倾向分析, 最后总体分类准确率达到71.85%^[11]. ...

社交网络中短文本情感分析技术研究

2014

Thumbs up? Sentiment Classification Using Machine Learning Techniques

2002

面向中文微博的观点句识别研究

2014

面向中文微博的观点句识别研究

2014

基于LDA模型的微博情感分析技术研究

2015

基于LDA模型的微博情感分析技术研究

2015

基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析

2016

基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析

2016

基于情感本体和kNN算法的在线评论情感分类研究

2016

... 通过爬虫软件获取新浪微博平台文本数据.数据预处理过程包括去除无关字符、文本分词、去停用词等.微博内容包含大量“#话题#”、url以及“@用户”等特殊符号, 这些信息中并不包含用户信息, 而且可能成为下一步分词、主题建模以及情感分类工作的噪声, 对结果产生负面影响^[12].因此在进行分词前应过滤掉微博内容中的无关字符.本文通过正则表达式提取文本内容, 并使用Jieba分词包对微博文本进行分词.为降低无关词干扰, 对照停用词表去除文本中没有意义的词.此外, 对微博评论数据的情感倾向进行人工标注, 将预处理后的数据存放在本地数据库中, 进行下一步分析. ...

基于情感本体和kNN算法的在线评论情感分类研究

2016

Latent Dirichlet Allocation

2003

... 潜在狄利克雷分布模型(Latent Dirichlet Allocaion, LDA)是Blei等在2003年提出的文档生成模型^[13], 其在语义挖掘领域得到了广泛应用.LDA模型是一个多层的贝叶斯网络模型, 包含文档、主题、词三层^[14].其主要思想是将每个文档看作所有主题的一个混合概率分布, 将其中的每个主题看作在单词上的一个概率分布.LDA模型中一条文本的生成过程如下^[15]: ...

... (1) 心理学相关研究提出情感感染理论, 认为人们会自动模仿和合并他人的语言、非语言信息, 因此情感觉察者会融入情感传递者的情感^[13].Facebook的一项用户研究表明, 快乐和悲伤的情感在社交网络上能更持久地传播.一条热点事件微博往往有成千上万条评论, 这些评论会影响后来的信息接受者的情感.因此本文认为同一个主题下的评论会具有相似的情感状态, 进而提出将微博文本的主题作为情感分类的特征变量输入. ...

基于LDA的微博文本主题建模方法研究述评

2012

基于LDA的微博文本主题建模方法研究述评

2012

基于LDA模型和微博热度的热点挖掘

2014

基于LDA模型和微博热度的热点挖掘

2014

Exploring Topic Coherence over Many Models and Many Topics

2012

... 使用LDA主题模型需要确定最优主题数目, 本文采用主题相关性Topic Coherence指标评价LDA建模的主题质量^[16].Topic Coherence指标通过计算一个主题中高分词语之间的语义相似性得到主题得分, 本文利用Mimno等提出的UMass主题相关性评价方法来评估主题质量^[17]. ...

Opitimizing Semantic Coherence in Topic Models

2011

Emotional Contagion

1993

... (2) 情感特征用情感词来衡量, 情感词指能明显表现积极或消极态度的词语, 情感词的使用最能直接反应用户的情感状态^[18].在情感词典的构建中, 本文主要参考HowNet整理的情感词典.在HowNet词典中, 情感词被整合在正面/负面情感词语、正面/负面评价词语等4个文档中.但由于近年来网络词语发展迅速, 产生了大量新词汇, 为提高文本分析的准确率, 对中文版HowNet词库进行更新, 原始词库共计正向情感词4 566个, 负向情感词4 370个, 本文过滤其中情感倾向不明显的词语, 人工补充添加一些网络新词, 合并词典中的情感词和评价词, 最后共有4 493个正面情感词, 4 256个负面情感词.部分新添加的情感词如表1所示. ...

A Decision-Theoretic Generalization of On-line Learning and an Application to Boosting

1995

... AdaBoost分类算法由Freund和Schipare提出^[19], 是集成算法Boosting中最优秀的一种, 有坚实的理论基础, 因为其泛化错误率低、性能稳健等优势在实践中得到了很好的推广和应用^[20].算法结合多个弱分类器, 可获得比单一学习器显著优越的泛化性能.其核心思想是针对同一个训练集训练多个分类器, 然后将这些弱分类器集合起来, 最终得到一个高性能的强分类器, 如公式(3)所示. ...

AdaBoost算法研究进展与展望

2013

AdaBoost算法研究进展与展望

2013

基于LDA主题模型的短文本分类方法

2013

... 依据公式(3)计算出主题个数在2-30区间内主题相关性(Topic Coherence)的值, 实验结果如图2所示, 横轴表示主题个数, 纵轴表示Topic Coherence值.可以看出, 随着主题个数的增加, Topic Coherence值逐渐减小且趋于稳定.但主题数越多, LDA模型计算代价越大, 也容易过拟合^[21].在主题个数为18时, 产生一个局部极小值, 因此综合Topic Coherence值和主题数量, 本文选择18作为LDA模型的主题参数值. ...

基于LDA主题模型的短文本分类方法

2013

基于SVM的高维混合特征短文本情感分类

2018

... 为评估AdaBoost在情感倾向识别问题中的性能, 选择支持向量机(Support Vector Machine)和朴素贝叶斯(Naïve Bayes)分类算法为基准分类器, 进行性能比较, 绘制ROC曲线并计算AUC值以评估模型分类效果.将模型3包含的特征, 即主题特征和情感特征变量作为三种分类算法的输入特征变量.利用十折交叉验证法将样本数据分为10份, 对每份数据计算AUC值, 对10次计算的结果取平均值, 绘制平均ROC曲线.支持向量机属于非概率分类器, 通过构造一个超平面实现良好的分类划界, 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势^[22], 本文使用基于线性核函数的SVM进行模型训练.朴素贝叶斯算法实现容易且速度较快, 适合处理大规模数据^[23].模型训练结果如图3所示. ...

基于SVM的高维混合特征短文本情感分类

2018

基于朴素贝叶斯的文本分类研究综述

2016

基于朴素贝叶斯的文本分类研究综述

2016

... 图3中横轴表示假正例率(False Positive Rate, FPR), 即将样本中反例被判别为正例的概率, 纵轴表示真正例率(True Positive Rate, TPR), 即样本中正例被模型识别为正例的概率, ROC曲线即在一系列不同阈值下计算对应的FPR和TPR值^[24].ROC曲线可平衡准确率和召回率, 是实验准确性的综合代表.ROC曲线下的面积即为AUC值, AUC值在0.7到0.9之间表示实验准确性高.图3中AdaBoost模型的AUC值达到0.82, 说明预测效果良好, 而支持向量机和朴素贝叶斯方法得到的AUC值分别为0.65和0.68, 说明在本实验中分类效果较差.综上所述, AdaBoost在以主题和情感词为特征变量输入时的微博用户情感倾向分类中有较好表现, 能够较为准确地识别用户情感倾向. ...

2016

基于微博的细粒度情感分析

2017

... (3) 用户语言表达的情感是多层次的, 正向包括“高兴的”“激动的”, 负向包括“紧张的”“恐惧的”等, 本文将其情感归类为正向和负向, 这为计算提供了便利, 但同时也丢失了很多信息^[25].因此下一步将对情感进行更细粒度的划分. ...

基于微博的细粒度情感分析

2017

〈

〉

基于LDA和AdaBoost多特征组合的微博情感分析*

Sentiment Analysis for Micro-blogs with LDA and AdaBoost

1 引 言

2 基于主题模型的微博用户情感分析研究现状

3 微博用户情感倾向识别模型和方法设计

3.1 数据采集与预处理

3.2 LDA主题识别模型

3.3 基于AdaBoost的情感分类特征选择以及词典构建

3.4 基于AdaBoost的情感分类模型训练与评估

4 实验结果及分析

4.1 数据收集及预处理

4.2 主题特征提取

4.3 多特征的AdaBoost模型

4.4 AdaBoost算法分类性能比较

5 结 语

作者贡献声明

利益冲突声明

支撑数据

参考文献 文献选项 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

基于LDA和AdaBoost多特征组合的微博情感分析^*

1 引言

5 结语

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子