Advanced Search

数据分析与知识发现  2018 , 2 (8): 51-59 https://doi.org/10.11925/infotech.2096-3467.2018.0060

研究论文

基于LDA和AdaBoost多特征组合的微博情感分析*

曾子明, 杨倩雯

武汉大学信息资源研究中心 武汉 430072

Sentiment Analysis for Micro-blogs with LDA and AdaBoost

Zeng Ziming, Yang Qianwen

Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

中图分类号:  TP391.1

通讯作者:  通讯作者: 曾子明, ORCID: 0000-0001-9847-0358, E-mail: zmzeng1977@aliyun.com

收稿日期: 2018-01-17

修回日期:  2018-05-11

网络出版日期:  2018-08-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系教育部人文社会科学重点研究基地重大项目“大数据资源的智能化管理与跨部门交互研究——面向公共安全领域”(项目编号: 16JJD870003)的研究成果之一

展开

摘要

目的】结合基于LDA主题识别模型和AdaBoost方法以提高微博文本情感分类准确度。【方法】利用LDA提取微博文本主题分布特征, 融合情感特征和句式特征, 采用AdaBoost集成分类方法针对上述特征变量训练情感分类模型。【结果】研究结果表明, 主题特征对情感识别有显著正向作用, 基于主题特征和情感特征的模型分类效果最好。借助AdaBoost分类器使得最终情感分类准确率达到84.512%, 召回率达到83.160%。【局限】样本数量有限; 情感词典还不够完善; 同时忽略了微博文本中的表情符号等特征。【结论】本文提出的结合主题分布特征的AdaBoost模型能够有效地判别用户情感倾向。

关键词: 微博 ; 情感分析 ; LDA ; AdaBoost

Abstract

[Objective] The paper aims to improve the performance of sentiment analysis for micro-blog texts with the help of LDA model and AdaBoost algorithm. [Methods] First, we used the LDA topic model to extract topics of micro-blog posts. Then, we merged the emotional and sentence pattern features. Finally, we trained the proposed sentiment analysis model with the AdaBoost ensemble classification method. [Results] The topic feature posed significant positive impacts on emotion recognition therefore, model with topic and emotional features yielded the best results. The precision of the proposed model reached 84.512%, while the recall reached 83.160%. [Limitations] The sample size needs to be expanded, and the sentiment dictionary should be improved too. We did not study the emoticons from the micro-blog posts. [Conclusions] The proposed AdaBoost model with LDA could effectively identify emotional tendencies.

Keywords: Micro-blog ; Sentiment Analysis ; LDA ; AdaBoost

0

PDF (614KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

曾子明, 杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59 https://doi.org/10.11925/infotech.2096-3467.2018.0060

Zeng Ziming, Yang Qianwen. Sentiment Analysis for Micro-blogs with LDA and AdaBoost[J]. Data Analysis and Knowledge Discovery, 2018, 2(8): 51-59 https://doi.org/10.11925/infotech.2096-3467.2018.0060

1 引 言

近年来社会化媒体快速发展, 越来越多的网络用户选择在社交网络平台(如微博、论坛、购物网站等)表达个人意见和情感倾向。微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道[1]。对于一些群体性的公共事件, 网民倾向于在微博上表达自己的看法和意见。这类事件往往持续时间久, 关注人数多, 在网络用户中影响巨大, 人们通过网络传达出的情感形成社会舆论, 可能会影响事件的发展, 甚至影响相关个人或组织的决策[2]。微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情感的波动情况, 在微博中跟踪这些突发事件的讨论话题, 对微博评论进行分析, 可以还原事件的发展过程, 实时把控网民情感状况, 减少公共突发事件对社会的负面影响[3]。因此对微博文本进行情感分析可以辅助政府进行网络舆情监测, 维持社会稳定。

自然语言处理技术快速发展, 越来越多的研究者关注于网络用户的情感分析。自然语言处理技术在用户情感分析上取得了较好效果, 但仍有许多不足, 现有研究更多从文本、句法结构等角度展开而忽略了深层语义信息。为提取更恰当的微博情感倾向特征和模型, 本文以2017年发生的微博热点事件“章莹颖案”为例, 在分析微博评论特点的基础上, 采用LDA文档主题生成模型提取微博文本的深层语义特征, 对微博正文进行语义降维, 将爬取的微博正文聚合为几类主题, 基于此构建微博评论情感分析的主题特征, 与情感特征、句式特征等融合, 借助AdaBoost集成分类方法识别微博评论情感倾向, 与支持向量机(SVM)和朴素贝叶斯方法(NB)进行性能对比, 最后评估三种分类器在情感倾向识别任务中的效能。

2 基于主题模型的微博用户情感分析研究现状

微博用户情感分析又称情感分类、评论挖掘或意见挖掘, 是指以某些特定的产品、事件为研究对象, 分析微博句子所隐含的情感状态, 评估或判断微博发布者的态度、观点及意见[4]。现阶段主要有基于规则的方法和基于机器学习两类方法。

(1) 基于规则的方法是分析微博文本的情感特征, 借助词典与规则结合的方法判定情感倾向性[5]。基于情感词典的方法需要构建情感词典, 人工整理具有感情色彩的词语以及程度副词、否定词等, 将情感词分为正向和负向。对需要计算感情色彩的文本提取情感词, 并为程度副词、否定词等赋予权重, 最后计算整条语句的情感得分, 判断情感倾向。基于情感词典的方法高度依赖于完善的情感词典, 在应用中需要大量人力和时间来构建情感词典, 存在很大的局限性, 且结果准确率低, 鲁棒性不够理想[6]

(2) 基于机器学习的方法是选择合适的情感倾向特征, 用大量预先标注的训练样本训练模型, 利用分类方法对文本的情感倾向进行预测[7]。Pang等最早将机器学习的方法应用到社交媒体文本的情感分析中, 将情感分析看作包括正向和负向的二分类问题, 从文本中抽取unigram、bigram、词性特征、词的位置特征等, 在SVM、NB、ME等分类算法上进行实验, 实验结果表明选取unigram作为特征使用SVM模型时效果最好[8]。在针对中文的研究中, 因为中文语法复杂, 缺乏标注的训练数据等问题, 增加了中文文本分析的难度[9]。部分研究人员使用LDA方法降低对标注数据的需求, 毛龙龙提出一种融合LDA主题模型的半监督情感分析方法, 选择表情符号个数、情感词个数、是否出现否定词等6个特征对微博文本进行主题聚类, 根据主题类别分别训练不同的情感分类模型, 利用少量标注样本和大量未分类样本解决分类问题, F1值达到68%[10]。苏莹等提出一种面向无指导情感分析的层次性生成模型, 将朴素贝叶斯和潜在狄利克雷分布(LDA)相结合, 自动生成独立特征, 不需标注信息即可对网络文本进行情感倾向分析, 最后总体分类准确率达到71.85%[11]

综上所述, 主题模型是进行语义挖掘的有力工具之一, 但是在现有将LDA和情感分析相结合的研究中, 大多将LDA与半监督或无监督学习训练方法相结合, 主要解决需大量人工标注语料的难点, 但是可以看出分类准确率并不高, 因此本文提出利用LDA方法提取微博文档主题作为情感分类的特征, 结合文本的语义特征和有监督训练方法, 提升情感分类的准确率。针对微博热点事件提取主题特征, 将主题特征结合微博短文本的情感特征和句式特征作为微博评论情感分类模型训练的特征输入, 并采用AdaBoost集成分类方法判别微博用户的情感倾向。

3 微博用户情感倾向识别模型和方法设计

本文构建的情感分类模型如图1所示, 包括4个步骤:

(1) 数据采集与预处理, 从微博平台获得所需数据, 删除无关文本, 对正文及评论文本分别进行预处理, 包括分词、字符过滤、标注情感倾向等;

(2) 利用LDA主题模型提取微博文本主题特征;

(3) 构建情感词典, 提取情感特征与句式特征;

(4) 使用AdaBoost训练模型, 得到分类效果最好的特征组合, 最后用支持向量机(SVM)和朴素贝叶斯(NB)为基准分类器评估模型性能。

图1   情感倾向识别模型设计

   

3.1 数据采集与预处理

通过爬虫软件获取新浪微博平台文本数据。数据预处理过程包括去除无关字符、文本分词、去停用词等。微博内容包含大量“#话题#”、url以及“@用户”等特殊符号, 这些信息中并不包含用户信息, 而且可能成为下一步分词、主题建模以及情感分类工作的噪声, 对结果产生负面影响[12]。因此在进行分词前应过滤掉微博内容中的无关字符。本文通过正则表达式提取文本内容, 并使用Jieba分词包对微博文本进行分词。为降低无关词干扰, 对照停用词表去除文本中没有意义的词。此外, 对微博评论数据的情感倾向进行人工标注, 将预处理后的数据存放在本地数据库中, 进行下一步分析。

3.2 LDA主题识别模型

潜在狄利克雷分布模型(Latent Dirichlet Allocaion, LDA)是Blei等在2003年提出的文档生成模型[13], 其在语义挖掘领域得到了广泛应用。LDA模型是一个多层的贝叶斯网络模型, 包含文档、主题、词三层[14]。其主要思想是将每个文档看作所有主题的一个混合概率分布, 将其中的每个主题看作在单词上的一个概率分布。LDA模型中一条文本的生成过程如下[15]:

①对于文档d, 从Dirichlet(α)抽样得到${{\theta }^{(d)}}$;

②对于主题z, 从Dirichlet$(\beta )$抽样得到${{\varphi }^{(z)}}$;

③对于每个单词wi及所属主题zi, 从多项式分布θ中抽样得到$zi=\text{P}(zi\text{ }\!\!|\!\!\text{ }\theta )$, 从多项式分布φ中抽样得到$wi=\text{P}(wi\text{ }\!\!|\!\!\text{ }zi,\varphi )$。

以LDA模型为代表的主题模型广泛应用于文本挖掘领域的研究中。利用主题建模挖掘出的主题可以帮助人们理解海量文本背后隐藏的语义, 也可以作为其他文本分析方法的输入, 完成文本分类、话题检测、自动摘要等多方面的文本挖掘任务。本文将LDA识别的主题类别作为微博用户情感分析的输入。

使用LDA主题模型需要确定最优主题数目, 本文采用主题相关性Topic Coherence指标评价LDA建模的主题质量[16]。Topic Coherence指标通过计算一个主题中高分词语之间的语义相似性得到主题得分, 本文利用Mimno等提出的UMass主题相关性评价方法来评估主题质量[17]

$coherence(V)=\sum\nolimits_{(vi,vj)\in V}{score(vi,vj,\epsilon )}$ (1)

V是描述某个主题的词语集合, $\epsilon $是一个平滑因子以确保返回的得分是一个实数。

$score(vi,vj,\epsilon )=\log \frac{D(vi,vj)+\epsilon }{D(vj)}$ (2)

公式(2)是UMass度量标准的分数计算方法, 其中$D(vi,vj)$指包含词语vivj的微博正文数量, D(vj)表示包含词语vj的微博正文数量。本文使用Topic Coherence得分确定最合适的主题数量。

3.3 基于AdaBoost的情感分类特征选择以及词典构建

特征选择是使用AdaBoost分类器实现分类的重要环节, 分类结果的准确程度很大程度上依赖于特征选择的合理性。本文选择的特征包括主题特征、情感特征、句式特征。

(1) 心理学相关研究提出情感感染理论, 认为人们会自动模仿和合并他人的语言、非语言信息, 因此情感觉察者会融入情感传递者的情感[13]。Facebook的一项用户研究表明, 快乐和悲伤的情感在社交网络上能更持久地传播。一条热点事件微博往往有成千上万条评论, 这些评论会影响后来的信息接受者的情感。因此本文认为同一个主题下的评论会具有相似的情感状态, 进而提出将微博文本的主题作为情感分类的特征变量输入。

(2) 情感特征用情感词来衡量, 情感词指能明显表现积极或消极态度的词语, 情感词的使用最能直接反应用户的情感状态[18]。在情感词典的构建中, 本文主要参考HowNet整理的情感词典。在HowNet词典中, 情感词被整合在正面/负面情感词语、正面/负面评价词语等4个文档中。但由于近年来网络词语发展迅速, 产生了大量新词汇, 为提高文本分析的准确率, 对中文版HowNet词库进行更新, 原始词库共计正向情感词4 566个, 负向情感词4 370个, 本文过滤其中情感倾向不明显的词语, 人工补充添加一些网络新词, 合并词典中的情感词和评价词, 最后共有4 493个正面情感词, 4 256个负面情感词。部分新添加的情感词如表1所示。

表1   添加的部分情感词

   

类别示例
正向情感词赞、骄傲、厉害、膜拜、大神
负向情感词喷、辣鸡、垃圾、脑残、差评、炒作、屌丝、键盘侠、细思极恐

新窗口打开

(3) 句式特征中包含否定词和转折词, 否定词的使用能够表达用户的主观态度, 并且可能改变整个语句的情感倾向, 比如“她的家人不知道怎么样了, 一点儿都不人性化, 别跟我提什么不交代没法定罪”, 否定词的连续使用致使整个句子情感倾向呈负向。本文收集一些常用的否定词以辅助文本的情感倾向分析, 表2中列出了部分否定词。复合句间的关联词语包括递进连词、并列连词、转折连词等, 递进连词和并列连词不会改变语句的情感倾向, 但转折连词的出现能够明显改变句子的情感倾向。比如“尽管不符合逻辑, 但仍然希望她还活着”。因为转折词的出现, 该文本情感倾向可以归类为正向。因此转折词在整个语句情感倾向的判断中起着至关重要的作用。表3列出了部分转折词。否定词共计255个, 转折词共计17个。

表2   部分否定词表

   

否定词
不该不好没有绝非

新窗口打开

表3   部分转折词表

   

转折词
但是然而可是不料
不过偏偏否则毕竟可惜只是

新窗口打开

综上, 选择主题、情感、句式等特征为特征输入变量训练模型, 表4阐释了特征表示以及计量方法。

表4   构建模型选择的特征类型及含义

   

特征类型特征表示含义特征度量
主题特征主题类别该条评论所属主题类别topic=i,(i=0,1,2…)
情感特征正向情感词一条评论中包含正向情感词个数pos=n,(n=0,1,2…)
负向情感词一条评论中包含负向情感词个数neg=n,(n=0,1,2…)
句式特征否定词一条评论中包含否定词数量nw= n,(n=0,1,2…)
转折词一条评论中包含转折词数量adv=n,(n=0,1,2…)

新窗口打开

3.4 基于AdaBoost的情感分类模型训练与评估

AdaBoost分类算法由Freund和Schipare提出[19], 是集成算法Boosting中最优秀的一种, 有坚实的理论基础, 因为其泛化错误率低、性能稳健等优势在实践中得到了很好的推广和应用[20]。算法结合多个弱分类器, 可获得比单一学习器显著优越的泛化性能。其核心思想是针对同一个训练集训练多个分类器, 然后将这些弱分类器集合起来, 最终得到一个高性能的强分类器, 如公式(3)所示。

$H(x)=sign(\sum\nolimits_{t=1}^{T}{{{\alpha }_{t}}{{h}_{t}}(x)})$ (3)

其中, T为基学习器数量, ${{\alpha }_{t}}$为第t个弱分类器的权重, ${{h}_{t}}$为进行训练的弱分类器。

在用户情感分类模型中, 以决策树作为AdaBoost的基学习器, 将标注后的微博评论数据作为初始训练集训练T个基学习器, 根据基学习器的表现对训练样本分布进行调整, 分类错误的样本加大其对应的权重, 降低正确分类样本的权重, 得到新的样本分布, 将修改权值的样本分布送给下层分类器进行训练。重复进行, 直到基学习器数目达到事先指定的T值, 得到T个弱分类器, 最后将这T个弱分类器按相应权重融合(Boost)起来, 作为最后的决策分类器。以支持向量机和朴素贝叶斯方法为基准分类器进行对比实验, 评估模型分类效果。

4 实验结果及分析

4.1 数据收集及预处理

以北京大学留学生章莹颖在美国失踪案为例, 该事件持续时间长, 多次登上微博热搜, 引起了国内网民的广泛关注。数据爬取过程及预处理分为两个阶段:

第一阶段以“章莹颖案”为关键词爬取2017-06-11到2017-11-06的热点微博共计688条, 数据包括微博内容、发布机构、发布时间、点赞数、转发数等, 预处理过程包括对微博文本去除无关字符、进行文本分词、去停用词, 主要用来提取主题特征;

第二阶段为对热点微博进行LDA建模后根据选择的微博主题爬取对应的微博评论, 获得2 400条评论数据, 包括评论内容、评论人、评论人数等。在筛选删除原始数据中的缺失、冗余、无关数据后, 最终得到1 426条评论数据, 本文对评论数据的预处理包括人工标记情感倾向, 过滤无关字符串, 文本分词, 对评论中的情感词、否定词、转折词等对照情感词典进行计数。实验语料如表5所示。

表5   实验语料统计结果

   

主题正向负向合计
Topic_115899257
Topic_268157225
Topic_336217253
Topic_416970239
Topic_544181225
Topic_620207227
合计4959311 426

新窗口打开

4.2 主题特征提取

依据公式(3)计算出主题个数在2-30区间内主题相关性(Topic Coherence)的值, 实验结果如图2所示, 横轴表示主题个数, 纵轴表示Topic Coherence值。可以看出, 随着主题个数的增加, Topic Coherence值逐渐减小且趋于稳定。但主题数越多, LDA模型计算代价越大, 也容易过拟合[21]。在主题个数为18时, 产生一个局部极小值, 因此综合Topic Coherence值和主题数量, 本文选择18作为LDA模型的主题参数值。

图2   主题数-主题相关性

   

确定主题个数后, 将预处理后的微博正文数据集用于LDA模型训练, 利用LDA模型训练得到18个主题, 在18个主题中选择意义明确、容易解释且处于事件不同阶段的6个主题用于下一步的情感分析。选取概率值最高的前6个词表示这6个主题, 如表6所示。

表6   LDA提取的主题词分布

   

主题Topic_1Topic_2Topic_3Topic_4Topic_5Topic_6
主题词交流0.0300
失联0.0244
厄巴纳0.0201
签0.0193
租房0.0192
硕士0.0180
小镇0.0367
塞勒姆0.0360
女孩0.0314
此前0.0139
伊利诺伊州0.0139
曾见0.0138
联邦调查局0.0548
死亡0.0476
一名0.0473
男子0.0428
逮捕0.0412
涉嫌0.0393
警察0.0418
模糊0.0413
震惊0.0398
画像0.0396
林宇辉0.0318
手绘0.0237
网站0.0190
疑犯0.0182
变态0.0165
潜入0.0137
呼吁0.0127
会员0.0119
捐款0.0503
家人0.0305
质疑0.0265
回应0.0223
用法0.0194
用于0.0166
主题含义事件发生背景受害人出现地点嫌犯逮捕手绘嫌犯画像变态网站回应捐款质疑

新窗口打开

这些主题词能较清晰地反映微博主题, 在这6个特定主题下, 可以找到能反映主题的相关微博。选取相应的微博正文并抓取其微博评论, 选择的部分微博文本如表7所示。

表7   选择的微博文本示例

   

主题微博文本
Topic_1
(事件发生背景)
【急转!北大女硕士赴美国交流时失联, 目前已超50小时】章莹颖, 女, 25岁, 中大本科、北大硕士、中科院助理研究员, 于今年4月前往美国UIUC伊利诺伊大学厄巴纳-香槟分校交流。当地时间9日, 小章外出签租房合同时失联, 目前已报警。
Topic_2
(受害人出现地点)
在一个名为塞勒姆(Salem)的小镇, 多名目击者声称在这里看到过章莹颖。塞勒姆镇位于章莹颖失踪地点伊利诺伊大学香槟分校西南约200公里。章莹颖的家人在Salem当地沿街走访, 有七个人分别向家人证实了他们曾见过章莹颖。
Topic_3
(嫌犯逮捕)
美国联邦调查局已经逮捕一名涉嫌绑架中国访问学者章莹颖的27岁男子。联邦调查局表示, 相信章莹颖已经死亡。
Topic_4
(手绘嫌犯画像)
6月23日, 中国警察林宇辉根据非常模糊的监控画面, 手绘出“章莹颖失踪案”嫌犯, 逼真程度震惊美国警方。7月
1日, 嫌疑人已被美国警方抓获。
Topic_5
(变态网站)
【记者潜入“全球第一变态网” 提章莹颖被封号】近日, #北大女硕士在美失联#案引发国内外广泛关注, 此案中, 一个涉嫌教唆疑犯进行绑架的变态网站也引起了大家注意。据悉, 此网站有500多万会员, 多名会员从网站学到“技术”后犯下重罪, 记者潜入网站, 发帖问章莹颖案就被“踢出”。
Topic_6
(回应捐款质疑)
【章莹颖家属已募得14万美元, 款项用途悄然变更遭质疑】章莹颖在美失踪70多天, 当地时间22日下午举行的新闻发布会上, 介绍了章家人几天前向特朗普提交的请愿信内容, 以及募集到的14.4万美元捐款主要用途及使用情况说明。但有不少捐款网友留言对筹款上限一再提高表示了质疑。

新窗口打开

4.3 多特征的AdaBoost模型

为研究各特征变量对情感分类效果的影响, 本文选择不同的特征组合构造模型并用AdaBoost算法进行训练和测试, 由此选出最好的特征项组合方式。模型1包含主题特征, 模型2包括情感特征, 模型3为主题特征和情感特征的组合, 模型4包含情感特征和句式特征, 模型5包括主题特征、情感特征和句式特征, 如表8所示。将1 426条评论数据以7:3的比例分为训练集和测试集, 并用相关指标评价分类结果。

表8   模型-特征变量

   

模型主题特征情感特征句式特征
1
2
3
4
5

新窗口打开

评价二分类模型性能的常用指标为正确率P(Precision)、召回率R(Recall)、F1值以及AUC值。Precision指模型对关注类的正确分类的文本数占测试集该类实际文本数的比例, Recall指关注类的正确分类文本数占测试集中分到该类的文本数量的比例。F1值是一个综合度量指标, 是准确率和召回率的调和平均值, AUC为ROC曲线下的面积。F1和AUC值越高, 分类器分类效果越好。AdaBoost模型不同特征组合实验结果如表9所示。

表9   AdaBoost模型不同特征组合实验结果

   

模型PrecisionRecallF1-scoreAUC
174.808%75.248%66.667%0.752
281.887%78.150%71.146%0.781
384.512%83.160%77.778%0.832
484.283%78.651%72.131%0.787
583.313%82.282%76.471%0.823

新窗口打开

表9可以看出在5个模型中, 模型3在准确率、召回率、F值以及AUC值均有最好的结果。说明主题特征在用户情感倾向分类的判别中起到正向作用。句式特征, 即句中转折词、否定词的加入对情感分类效果与仅使用情感词相比有少量提升, 与模型3中使用情感特征和主题特征相比, 句式特征的加入甚至对结果有负向干扰作用。句式特征效果不好的原因可能有两个: 其一, 用出现次数来统计否定词、转折词的方法不够合理; 其二, 原始数据中句式特征出现大量空值, 对实验结果产生影响。

4.4 AdaBoost算法分类性能比较

为评估AdaBoost在情感倾向识别问题中的性能, 选择支持向量机(Support Vector Machine)和朴素贝叶斯(Naïve Bayes)分类算法为基准分类器, 进行性能比较, 绘制ROC曲线并计算AUC值以评估模型分类效果。将模型3包含的特征, 即主题特征和情感特征变量作为三种分类算法的输入特征变量。利用十折交叉验证法将样本数据分为10份, 对每份数据计算AUC值, 对10次计算的结果取平均值, 绘制平均ROC曲线。支持向量机属于非概率分类器, 通过构造一个超平面实现良好的分类划界, 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势[22], 本文使用基于线性核函数的SVM进行模型训练。朴素贝叶斯算法实现容易且速度较快, 适合处理大规模数据[23]。模型训练结果如图3所示。

图3   ROC曲线

   

图3中横轴表示假正例率(False Positive Rate, FPR), 即将样本中反例被判别为正例的概率, 纵轴表示真正例率(True Positive Rate, TPR), 即样本中正例被模型识别为正例的概率, ROC曲线即在一系列不同阈值下计算对应的FPR和TPR值[24]。ROC曲线可平衡准确率和召回率, 是实验准确性的综合代表。ROC曲线下的面积即为AUC值, AUC值在0.7到0.9之间表示实验准确性高。图3中AdaBoost模型的AUC值达到0.82, 说明预测效果良好, 而支持向量机和朴素贝叶斯方法得到的AUC值分别为0.65和0.68, 说明在本实验中分类效果较差。综上所述, AdaBoost在以主题和情感词为特征变量输入时的微博用户情感倾向分类中有较好表现, 能够较为准确地识别用户情感倾向。

5 结 语

在网络环境越来越开放的现代社会, 更多人选择通过网络表达自己的情感。实时关注网民的情感状态对维持社会稳定、避免负面消息的传播有重要意义。本文提出一种基于主题特征和情感特征的公共热点事件微博用户情感分类方法, 综合考虑微博文本的特点, 选择主题特征、情感特征以及句式特征, 将特征输入AdaBoost分类模型, 提出微博用户情感倾向分析的实验方案。对从微博抓取的语料进行实证研究, 并取得了较好的效果。实验表明, 增加主题特征对微博用户情感分类效果有显著的正向影响, AdaBoost模型情感分类的准确率达到84.51%。

当然实验也有很多不足之处, 关于用户情感分析的研究还有大量值得继续探索的工作, 有很大的提升空间。后续的研究将从以下方面继续完善:

(1) 情感词典对实验效果至关重要, 本文在HowNet情感词典的基础上增加了相关网络词汇, 但仍不够完善, 需要继续丰富;

(2) 本文重点验证了主题、情感词、否定词、转折词等特征对情感分类效果的影响, 但微博文本还包含大量表情符、感叹词及标点符号, 在表达用户情感方面有重要作用, 未来将加入更多特征训练学习模型;

(3) 用户语言表达的情感是多层次的, 正向包括“高兴的”“激动的”, 负向包括“紧张的”“恐惧的”等, 本文将其情感归类为正向和负向, 这为计算提供了便利, 但同时也丢失了很多信息[25]。因此下一步将对情感进行更细粒度的划分。

作者贡献声明

曾子明: 提出研究选题和思路, 设计研究方案和技术路线, 论文修改和最终版本修订;

杨倩雯: 构建实验模型和设计算法, 数据采集和分析, 论文撰写。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 952038983@qq.com。

[1] 杨倩雯. data1.zip. 原始微博数据.

[2] 杨倩雯. data2.zip. 特征提取表.

[3] 杨倩雯. dictionary.zip. 情感词典.


参考文献

[1] 何跃, 朱灿.

基于微博的意见领袖网情感特征分析——以“非法疫苗”事件为例

[J]. 数据分析与知识发现, 2017, 1(9): 65-73.

[本文引用: 1]     

(He Yue, Zhu Can.

Sentiment Analysis of Weibo Opinion Leaders—Case Study of ‘Illegal Vaccine’ Event

[J]. Data Analysis and Knowledge Discovery, 2017, 1(9): 65-73.)

[本文引用: 1]     

[2] 徐健.

基于网络用户情感分析的预测方法研究

[J]. 中国图书馆学报, 2013, 39(3): 96-107.

https://doi.org/10.3969/j.issn.1001-8867.2013.03.022      URL      Magsci      [本文引用: 1]      摘要

网络用户情感分析领域的研究为特定领域社会行为的预测提供了新的方法和工具。本文分析了基于情感分析进行预测的逻辑基础、典型预测方法、关键技术以及当前存在的问题和发展趋势。研究发现:研究基于网络用户情感分析预测社会活动趋势的方法在政治、财经等多个领域具备应用条件;典型预测方法可归纳为以情感分析结果作为辅助依据的预测方法和以情感分析结果作为主要依据的预测方法;预测过程涉及情感分析源的选择、预测时间提前量的确定以及情感词统计处理三个关键环节;当前研究还存在网络用户情感的代表性,待分析语料的全面和正确获取,以及网络用户情感的正确分析和统计等问题,有待深入研究。图2。参考文献47。

(Xu Jian.

Research on Predicting Methods Based on Network User Sentiment Analysis

[J]. Journal of Library Science in China, 2013, 39(3): 96-107.)

https://doi.org/10.3969/j.issn.1001-8867.2013.03.022      URL      Magsci      [本文引用: 1]      摘要

网络用户情感分析领域的研究为特定领域社会行为的预测提供了新的方法和工具。本文分析了基于情感分析进行预测的逻辑基础、典型预测方法、关键技术以及当前存在的问题和发展趋势。研究发现:研究基于网络用户情感分析预测社会活动趋势的方法在政治、财经等多个领域具备应用条件;典型预测方法可归纳为以情感分析结果作为辅助依据的预测方法和以情感分析结果作为主要依据的预测方法;预测过程涉及情感分析源的选择、预测时间提前量的确定以及情感词统计处理三个关键环节;当前研究还存在网络用户情感的代表性,待分析语料的全面和正确获取,以及网络用户情感的正确分析和统计等问题,有待深入研究。图2。参考文献47。
[3] 崔安颀.

微博热点事件的公众情感分析研究

[D]. 北京: 清华大学, 2013.

[本文引用: 1]     

(Cui Anqi.

Study on Public Sentiment Analysis of Events in Microblogs

[D]. Beijing: Tsinghua University, 2013.)

[本文引用: 1]     

[4] Pang B, Lee L.

Opinion Mining and Sentiment Analysis

[J]. Foundations and Trends in Information Retrival, 2008, 2(1-2): 1-135.

https://doi.org/10.1561/1500000011      URL      [本文引用: 1]      摘要

An important part of our information-gathering behavior has always been to find out what other people think. With the growing availability and popularity of opinion-rich resources such as online review sites and personal blogs, new opportunities and challenges arise as people now can, and do, actively use information technologies to seek out and understand the opinions of others. The sudden eruption of activity in the area of opinion mining and sentiment analysis, which deals with the computational treatment of opinion, sentiment, and subjectivity in text, has thus occurred at least in part as a direct response to the surge of interest in new systems that deal directly with opinions as a first-class object. This survey covers techniques and approaches that promise to directly enable opinion-oriented information-seeking systems. Our focus is on methods that seek to address the new challenges raised by sentiment-aware applications, as compared to those that are already present in more traditional fact-based analysis. We include material on summarization of evaluative text and on broader issues regarding privacy, manipulation, and economic impact that the development of opinion-oriented information-access services gives rise to. To facilitate future work, a discussion of available resources, benchmark datasets, and evaluation campaigns is also provided. <!-- .bsa-cpc #_default_:before { display: block; margin: 1em auto; padding-top: 1em; max-width: 940px; border-top: solid 1px #b7babc; color: #8a9299; content: "Advertisements"; text-align: center; text-transform: uppercase; font-weight: bold; font-size: 0.8em; } .bsa-cpc #_default_ { position: relative; overflow: hidden; margin: 2em 0; margin: 0 auto; padding-bottom: 3em; max-width: 940px; border-bottom: solid 1px #b7babc; font-size: 11px; line-height: 1.5; justify-content: center; } .bsa-cpc .default-ad { display: none; } .bsa-cpc ._default_ { position: relative; display: block; float: left; overflow: hidden; margin: 0 .4em; padding: 1em; max-width: 30%; border-radius: 3px; background-color: #ece9d8; text-align: left; line-height: 1.5; } .bsa-cpc a { color: #1d4d0f; text-decoration: none !important; } .bsa-cpc a:hover { color: red; } .bsa-cpc .default-image img { display: block; float: left; margin-right: 10px; width: 36px; border-radius: 7.5%; } .bsa-cpc .default-title, .bsa-cpc .default-description { display: block; margin-left: 46px; max-width: calc(100% - 36px); } .bsa-cpc .default-title { font-weight: 600; } .bsa-cpc .default-description:after { position: absolute; top: 4px; right: 4px; padding: 1px 4px; color: hsla(0, 0%, 20%, .3); content: "Ad"; text-transform: uppercase; font-size: 7px; } @media only screen and (min-width: 320px) and (max-width: 759px) { .bsa-cpc #_default_ { flex-wrap: wrap; } .bsa-cpc ._default_ { float: none; margin: 0 1em .5em; max-width: 100%; } } (function(){ if(typeof _bsa !== 'undefined' && _bsa) { _bsa.init('default', 'CVADE2QJ', 'placement:acmorg', { target: '.bsa-cpc', align: 'horizontal', disable_css: 'true' }); } })();
[5] 陈晓东.

基于情感词典的中文微博情感倾向分析研究

[D].武汉: 华中科技大学, 2012.

[本文引用: 1]     

(Chen Xiaodong.

Research on Sentiment Dictionary Based Emotional Tendency Analysis of Chinese MicroBlog

[D]. Wuhan: Huazhong University of Science and Technology, 2012.)

[本文引用: 1]     

[6] 史伟, 王洪伟, 何绍义.

基于语义的中文在线评论情感分析

[J]. 情报学报, 2013, 32(8): 860-867.

https://doi.org/10.3772/j.issn.1000-0135.2013.08.009      URL      [本文引用: 1]      摘要

为解决传统的情感分析方法中存在的语义理解能力不足和情感分析不充分问题,本文从语义的角度,运用构建模糊情感本体的方法,对中文在线评论情感分析进行研究。引入情感空间模型,并将传统的在线评论情感分析细分为特征评价和情绪表达两方面。基于已建立的模糊情感本体,对产品(服务)的特征、情感类和强度、程度词、否定词、修辞方法和标点等语义元素进行标注,构建从句子层到文档层的情感计算方法。选取有代表性的评论语料进行实验,结果表明建立的情感分析方法具有优良的准确性和应用性,进一步分析发现不同评论语料中情感具有不同的表达形式和关联关系。

(Shi Wei, Wang Hongwei, He Shaoyi.

Sentiment Analysis of Chinese Online Reviews Based on Semantics

[J]. Journal of the China Society for Scientific and Technical Information, 2013, 32(8): 860-867.)

https://doi.org/10.3772/j.issn.1000-0135.2013.08.009      URL      [本文引用: 1]      摘要

为解决传统的情感分析方法中存在的语义理解能力不足和情感分析不充分问题,本文从语义的角度,运用构建模糊情感本体的方法,对中文在线评论情感分析进行研究。引入情感空间模型,并将传统的在线评论情感分析细分为特征评价和情绪表达两方面。基于已建立的模糊情感本体,对产品(服务)的特征、情感类和强度、程度词、否定词、修辞方法和标点等语义元素进行标注,构建从句子层到文档层的情感计算方法。选取有代表性的评论语料进行实验,结果表明建立的情感分析方法具有优良的准确性和应用性,进一步分析发现不同评论语料中情感具有不同的表达形式和关联关系。
[7] 韩旭.

社交网络中短文本情感分析技术研究

[D]. 天津: 天津大学, 2014.

[本文引用: 1]     

(Han Xu.

Research on Technology of Short-Text Sentiment Analysis in Social Network

[D].Tianjin: Tianjin University, 2014.)

[本文引用: 1]     

[8] Pang B, Lee L, Vaithyanathan S.

Thumbs up? Sentiment Classification Using Machine Learning Techniques

[C]// Proceedings of Conference on Empirical Methods in Natural Language Processing. 2002: 79-86.

[本文引用: 1]     

[9] 丁晟春, 孟美任, 李霄.

面向中文微博的观点句识别研究

[J]. 情报学报, 2014, 33(2): 175-182.

[本文引用: 1]     

(Ding Shengchun, Meng Meiren, Li Xiao.

Study of Subjective Sentence Identification Oriented to Chinese Microblog

[J]. Journal of the China Society for Scientific and Technical Information, 2014, 33(2): 175-182.)

[本文引用: 1]     

[10] 毛龙龙.

基于LDA模型的微博情感分析技术研究

[D]. 兰州: 西北师范大学, 2015.

[本文引用: 1]     

(Mao Longlong.

Research on Microblog Sentiment Analysis Technology Based the LDA Model

[D]. Lanzhou: Northwest Normal University, 2015.)

[本文引用: 1]     

[11] 苏莹, 张勇, 胡珀, .

基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析

[J]. 计算机应用, 2016, 36(6): 1613-1618.

https://doi.org/10.11772/j.issn.1001-9081.2016.06.1613      Magsci      [本文引用: 1]      摘要

针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。

(Su Ying, Zhang Yong, Hu Po, et al.

Sentiment Analysis Research Based on Combination of Naive Bayes and Latent Dirichlet Allocation

[J]. Journal of Computer Applications, 2016, 36(6): 1613-1618.)

https://doi.org/10.11772/j.issn.1001-9081.2016.06.1613      Magsci      [本文引用: 1]      摘要

针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。
[12] 唐晓波, 朱娟, 杨丰华.

基于情感本体和kNN算法的在线评论情感分类研究

[J]. 情报理论与实践, 2016, 39(6): 110-114.

URL      [本文引用: 1]      摘要

[目的/意义]构建针对网络在线评论的情感分析模型,一方面可以为用户决策提供支持;另一方面又可以帮助产品或服务提供商了解用户情感倾向,提升用户体验。[方法/过程]提出了基于情感本体和k NN算法的在线评论情感分类模型。该模型基于情感本体,通过对情感词数量和情感程度进行加权,提出了褒义量和贬义量的概念,并以此作为k NN算法的特征向量。通过爬取豆瓣网电影评论进行训练和测试,并分别从褒性评论和贬性评论的角度对分类效果进行评价。[结果/结论]结果表明,本算法在分类准确率和召回率方面都具有不错的水平,但同时对贬性评论分类效果优于褒性评论,为未来研究提供了新的思路。

(Tang Xiaobo, Zhu Juan, Yang Fenghua.

Research on Emotional Classification of Online Reviews Based on Emotional Ontology and kNN Algorithm

[J]. Information Studies: Theory & Application, 2016, 39(6): 110-114.)

URL      [本文引用: 1]      摘要

[目的/意义]构建针对网络在线评论的情感分析模型,一方面可以为用户决策提供支持;另一方面又可以帮助产品或服务提供商了解用户情感倾向,提升用户体验。[方法/过程]提出了基于情感本体和k NN算法的在线评论情感分类模型。该模型基于情感本体,通过对情感词数量和情感程度进行加权,提出了褒义量和贬义量的概念,并以此作为k NN算法的特征向量。通过爬取豆瓣网电影评论进行训练和测试,并分别从褒性评论和贬性评论的角度对分类效果进行评价。[结果/结论]结果表明,本算法在分类准确率和召回率方面都具有不错的水平,但同时对贬性评论分类效果优于褒性评论,为未来研究提供了新的思路。
[13] Blei D M, Ng A Y, Jordan M I.

Latent Dirichlet Allocation

[J].Journal of Machine Learning Research, 2003, 3: 993-1022.

[本文引用: 2]     

[14] 张培晶, 宋蕾.

基于LDA的微博文本主题建模方法研究述评

[J]. 图书情报工作, 2012, 56(24): 120-126.

URL      Magsci      [本文引用: 1]      摘要

<p>在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。</p>

(Zhang Peijing, Song Lei.

Overview on Topic Modeling Method of Microblogs Text Based on LDA

[J]. Library and Information Service, 2012, 56(24): 120-126.)

URL      Magsci      [本文引用: 1]      摘要

<p>在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。</p>
[15] 唐晓波, 向坤.

基于LDA模型和微博热度的热点挖掘

[J].图书情报工作, 2014, 58(5): 58-63.

https://doi.org/10.13266/j.issn.0252-3116.2014.05.010      URL      [本文引用: 1]      摘要

分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。

(Tang Xiaobo, Xiang Kun.

Hotspot Mining Based on LDA Model and Microblog Heat

[J]. Library and Information Service, 2014, 58(5): 58-63.)

https://doi.org/10.13266/j.issn.0252-3116.2014.05.010      URL      [本文引用: 1]      摘要

分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。
[16] Stevens K, Kegelmeyer P, Andrzejewski D, et al.

Exploring Topic Coherence over Many Models and Many Topics

[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea. 2012.

[本文引用: 1]     

[17] Mimno D, Wallach H M, Talley E, et al.

Opitimizing Semantic Coherence in Topic Models

[C]//Proceedings of Conference on Emperical Methods in Natural Language Processing.2011: 262-272.

[本文引用: 1]     

[18] Hatfield E, Cacioppo J L, Rapson R L.

Emotional Contagion

[J]. Current Directions in Psychological Sciences, 1993, 2: 96-99.

https://doi.org/10.1111/1467-8721.ep10770953      URL      [本文引用: 1]     

[19] Freund Y, Schipare R E.

A Decision-Theoretic Generalization of On-line Learning and an Application to Boosting

[C]// Proceedings of the 2nd European Conference on Computational Learning Theory. 1995: 23-37.

[本文引用: 1]     

[20] 曹莹, 苗启广, 刘家辰, .

AdaBoost算法研究进展与展望

[J]. 自动化学报, 2013, 39(6): 745-758.

https://doi.org/10.3724/SP.J.1004.2013.00745      URL      Magsci      [本文引用: 1]      摘要

<p>AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、 更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善.</p>

(Cao Ying, Miao Qiguang, Liu Jiachen.

Advance and Prospects of AdaBoost Algorithm

[J]. Acta Automatica Sinica, 2013, 39(6): 745-758.)

https://doi.org/10.3724/SP.J.1004.2013.00745      URL      Magsci      [本文引用: 1]      摘要

<p>AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、 更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善.</p>
[21] 张志飞, 苗夺谦, 高灿.

基于LDA主题模型的短文本分类方法

[J]. 计算机应用, 2013, 33(6): 1587-1590.

https://doi.org/10.3724/SP.J.1087.2013.01587      Magsci      [本文引用: 1]      摘要

针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。

(Zhang Zhifei, Miao Duoqian, Gao Can.

Short Text Classification Using Latent Dirichlet Allocation

[J]. Journal of Computer Application, 2013, 33(6): 1587-1590.)

https://doi.org/10.3724/SP.J.1087.2013.01587      Magsci      [本文引用: 1]      摘要

针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。
[22] 王义真, 郑啸, 后盾, .

基于SVM的高维混合特征短文本情感分类

[J]. 计算机技术与发展, 2018, 28(2): 88-93.

URL      [本文引用: 1]      摘要

针对短文本具有的稀疏性、不规范性、主题不明确性等相关特点,提出一种基于SVM的高维混合特征模型。首先介绍了兼顾语义和情感的6类特征:表情符号特征、词聚类特征、词性标注特征、n-gram特征、否定特征和情感词典。其中主要介绍了该6类特征的概念、抽取方式以及输出形式;其次在第六届中文倾向性分析评测(COAE2014)为基础的数据集上,采用5折交叉的方法对该模型进行了有效性验证,其平均准确率为84.69%、平均召回率为83.13%,而平均F1值为83.90%;接着探讨了SVM惩罚系数对实验的影响;最后将该模型与一步三分类方法、Recursive Auto Encoder、Doc2vec做了对比分析,结果表明提出的模型对短文本情感分类更有效。

(Wang Yizhen, Zheng Xiao, Hou Dun, et al.

Short Text Sentiment Classification of High Dimensional Hybrid Feature Based on SVM

[J]. Computer Technology and Development, 2018, 28(2): 88-93.)

URL      [本文引用: 1]      摘要

针对短文本具有的稀疏性、不规范性、主题不明确性等相关特点,提出一种基于SVM的高维混合特征模型。首先介绍了兼顾语义和情感的6类特征:表情符号特征、词聚类特征、词性标注特征、n-gram特征、否定特征和情感词典。其中主要介绍了该6类特征的概念、抽取方式以及输出形式;其次在第六届中文倾向性分析评测(COAE2014)为基础的数据集上,采用5折交叉的方法对该模型进行了有效性验证,其平均准确率为84.69%、平均召回率为83.13%,而平均F1值为83.90%;接着探讨了SVM惩罚系数对实验的影响;最后将该模型与一步三分类方法、Recursive Auto Encoder、Doc2vec做了对比分析,结果表明提出的模型对短文本情感分类更有效。
[23] 贺鸣, 孙建军, 成颖.

基于朴素贝叶斯的文本分类研究综述

[J]. 情报科学, 2016, 34(7): 147-154.

URL      Magsci      [本文引用: 1]      摘要

文本自动分类是自然语言处理领域的重要分支之一, 已经形成了大量的模型以及算法, 其中基于朴素贝叶斯的相关研究是该领域持续的热点。本文对基于朴素贝叶斯的文本自动分类研究进行了系统的综述。探讨了多项式模型和多元伯努利模型等经典的朴素贝叶斯分类方法。重点分析了经典的特征选择方法以及包括ALOFT等在内的多种改进的特征选择方法。论文还对从加权、 避免平滑等视角的NB改进算法进行了梳理。最后, 提出了进一步改进NB的主要思路。

(He Ming, Sun Jianjun, Cheng Ying.

Text Classification Based on Naïve Bayes: A Review

[J]. Information Science, 2016, 34(7): 147-154.)

URL      Magsci      [本文引用: 1]      摘要

文本自动分类是自然语言处理领域的重要分支之一, 已经形成了大量的模型以及算法, 其中基于朴素贝叶斯的相关研究是该领域持续的热点。本文对基于朴素贝叶斯的文本自动分类研究进行了系统的综述。探讨了多项式模型和多元伯努利模型等经典的朴素贝叶斯分类方法。重点分析了经典的特征选择方法以及包括ALOFT等在内的多种改进的特征选择方法。论文还对从加权、 避免平滑等视角的NB改进算法进行了梳理。最后, 提出了进一步改进NB的主要思路。
[24] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[本文引用: 1]     

(Zhou Zhihua.Machine Learning[M]. Beijing: Tsinghua University Press, 2016.)

[本文引用: 1]     

[25] 敦欣卉, 张云秋, 杨铠西.

基于微博的细粒度情感分析

[J].数据分析与知识发现, 2017, 1(7): 61-72.

[本文引用: 1]     

(Guo Xinhui, Zhang Yunqiu, Yang Kaixi.

Fine-grained Sentiment Analysis Based on Weibo

[J]. Data Analysis and Knowledge Discovery, 2017, 1(7): 61-72.)

[本文引用: 1]     

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/