数据分析与知识发现, 2019, 3(2): 98-107
doi: 10.11925/infotech.2096-3467.2018.0578
基于中文社交媒体文本的领域情感词典构建方法研究*
Constructing a Domain Sentiment Lexicon Based on Chinese Social Media Text
蒋翠清1,2,, 郭轶博1, 刘尧1

摘要:

【目的】从社交媒体用户生成内容中发现未知情感词, 构造领域情感词典, 应用于汽车评论的情感分析。【方法】选取HowNet情感词典作为种子, 以实际汽车评论作为语料, 分别利用PMI和Word2Vec算法识别新词情感极性, 根据集成规则对二者识别结果综合判定, 通过情感分类实验对比显示本文算法的有效性。【结果】按照该方法构造的情感词典准确率比HowNet情感词典提高21.6%, 较分别使用PMI和Word2Vec算法构建的词典分别提升3.7%和2.1%, 同时正面、负面情感词数量均有大幅增加。【局限】语料来源单一, 应用于其他领域具有一定局限性。【结论】该方法构造的情感词典可有效应用于社交媒体文本情感分析。

关键词: 社交媒体 ; 情感分析 ; 情感词典 ; PMI ; Word2Vec

Abstract:

[Objective] This study aims to construct a domain sentiment lexicon by discovering unrecognized sentiment words from user-generated contents on Chinese social media to apply it to automotive comments sentiment analysis. [Methods] First, words in HowNet are selected as the seeds, and PMI and Word2Vec algorithm are used to calculate the sentiment polarity of the candidates respectively on real automative corpus. Then the results of the two discriminations are judged synthetically according to the ensemble rules. Finally the proposed method was shown effective by the comparison of the sentiment classification experiments. [Results] The accuracy rate of the lexicon constructed according to proposed method is 21.6% higher than that of HowNet. The lexicon constructed by PMI and Word2Vec respectively increase 3.7% and 2.1%. Meanwhile the number of positive and negative emotional words are greatly increased. [Limitations] The source of corpus is single, and it has certain limitations in guiding other fields. [Conclusions] The sentiment lexicon constructed by this method can be applied to sentiment analysis of social media texts effectively.

Key words: Social Media ; Sentiment Analysis ; Sentiment Lexicon ; PMI ; Word2Vec

1 引 言

情感词典是社交媒体文本情感分析的重要技术手段[1,2], 情感词典的表现效果很大程度取决于情感词的选择。一个拥有准确情感倾向同时能够覆盖大部分情感词的情感词典, 在文本的情感分类、主题分类等任务中能够获得较高的准确率[3]。随着社交媒体内容的多元化发展, 情感词典的领域特性日益明显, 新词、专有名词不断涌现, 传统的通用情感词典由于覆盖度低无法涵盖领域依赖的情感词。因此, 基于种子词进行领域内自动扩展构建情感词典的方法成为当前一项热门研究内容, 其核心问题在于如何准确判别未知新词的情感极性。本文提出一种面向中文社交媒体汽车领域环境下情感词典自动扩建方法, 利用点互信息PMI和词向量Word2Vec算法分别判断候选词的情感极性, 再根据本文提出的集成规则对情感词进行最终倾向判别, 从而快速构建出具有较好分类效果的领域情感 词典。

2 研究现状

情感词典构建方法主要分为人工标注和自动扩展两种方式。早期情感词典多是由专家标注情感词人工构建而成, 例如英文领域著名的WordNet词典[4]、General Inquirer(GI)词典[5]、SentiWordNet[4]词典、Opinion Lexicon等, 中文领域常见的如知网情感库HowNet词典[6]、中国台湾大学通用中文情感词典NTUSD[7]等。人工标注构建的方法耗时费力, 只能识别有限的情感词, 而且不能很好地适应社交媒体环境下文本的情感分析任务。一方面, 社交媒体环境下文本新词多, 词语多义现象普遍, 传统的情感词典很难覆盖到新的情感词, 同时也无法甄别早期情感词的新情感倾向变化情况。另一方面, 社交媒体的文本内容具有领域特征, 而早期的情感词典只包含通用情感词, 无法适应社交媒体多领域的特点。文献[8]发现利用通用的情感词典进行特定领域的情感分析, 可能会造成严重的信息误判, 因此无法胜任社交媒体环境下用户生成内容的情感分析任务。

对专家标注的情感词作为种子进行自动扩展得到领域情感词典是目前主流的做法。扩展的核心问题是衡量候选词与种子词之间的距离, 从而计算新词的情感极性。目前, 自动扩展的构建方法可以分为基于词间共现概率法和语义相似度衡量法两种。词间共现(Co-occurrence)概率是一种统计量, 可用于发现情感词。基于这种思想的方法有点互信息PMI(Pointwise Mutual Information)[9]、SO-PMI(Semantic Orientation- Pointwise Mutual Information)[10]等。这种方法的原理是通过使用一个足够大的语料库计算两个词或词组之间的文本共现率, 从而衡量未知情感极性的新词与已知情感极性的种子词之间的紧密程度。文献[11]面向英文社交平台股票领域, 将候选词分为4类8个集合, 使用PMI算法计算不同候选词和不同情感词典情况下扩展得到的情感词典。文献[12]以图书评论作为语料, 人工选取7类情感种子词, 利用改进的SO-PMI算法构建一个面向中文图书评论领域的情感词典并取得一定效果。文献[13]提出一个两阶段的领域情感词典构建方法, 其中第一阶段使用PMI计算每个新词的情感倾向。但是利用共现情况或者互信息衡量两个词的联系紧密程度, 需要依赖情感词在语料库中的分布规律。无法保证大规模较为完整的语料库时, 若某一情感词在一条语料下出现次数较多而在其他语料下出现次数很少甚至不出现, 这样将无法计算候选词与种子词之间的情感值。

利用语义衡量候选词与种子词之间的距离是另一种主要的识别新词情感极性的方法。早期主要通过HowNet计算语义相似度。这种方法也是通过选择一些已知情感词作为种子, 然后衡量新词与种子词之间的紧密程度。与PMI方法使用共现率衡量不同, 这种方法是基于知网的相似度计算。文献[14]使用HowNet的语义相似度计算一个词与正面词集和负面词集的相似度差值作为新词的情感极性。但是这种计算语义相似度的方法严重依靠知网词典的完善性。Word2Vec[15]是一种通过神经网络语言模型将语料库中的词映射到N维向量空间的高效工具, 利用大量的文本阅读充分学习语料库中全局的语法信息和语义信息, 然后通过神经网络训练的模型将词映射成固定维度的向量, 使得将对文本的处理简化为N维空间向量的运算。近年, Word2Vec越来越多地应用于文本分析相关领域。基于Word2Vec的情感词典扩建方法能够同时考虑语义信息以及词语的领域特征, 在处理不同文字、但是在相似语境下的词具有明显的优势。文献[16]发现, 通过这种方法映射的向量计算出余弦相似度能够很好地反映词之间的语义关系程度。文献[17]对情感进行10种维度细粒度的划分, 使用大规模的语料利用Word2Vec构建多维度的跨领域通用情感词典。文献[18]通过人工筛选和Word2Vec词聚类构建情感词典, 并通过实验证明该词库比一般情绪词表在准确率上有提升。但具有相同语义的词并非带有相同的情感, 另外也需要保证语义相似度计算的准确率, 因为有些语义非常相似的词但余弦相似性可能并不高, 这依赖于Word2Vec内部的参数设置。

综上, 使用点互信息和语义相似度均可以判别候选词的情感极性。但是PMI和Word2Vec算法本身需要满足严格的条件, 前者依赖情感词在语料库中的分布规律, 需要完备的语料库作为支撑; 后者依赖神经网络内部的参数调整以保证准确表达并计算语义。为克服这两种方法的局限性, 本文提出一种融合PMI和Word2Vec识别的领域情感词典扩建方法。

3 基于社交媒体文本的领域情感词典扩展框架

本文构建中文社交媒体环境下基于PMI和Word2Vec混合识别的领域情感词典自动扩展框架, 如图1所示。该框架包含两个子过程:

(1) 数据准备阶段, 这一过程主要是将社交媒体环境下半结构化、非结构化的用户生成内容转化为结构化的、有利于下一步分析使用的文本数据, 具体包括数据爬取、数据预处理、词性标注三个环节。此阶段产出从语料库中提取的候选词。

(2) 情感词典扩建阶段, 这一过程是进行情感词的识别并构建最终的词典, 具体包括利用PMI计算共现率和利用Word2Vec计算语义相似度分别判断候选词的极性, 然后通过集成规则将候选词分类到相应的集合中, 最终构造出领域情感词典。

图1 基于社交媒体文本的领域情感词典构建框架

3.1 提取候选词

形容词和副词具有天然的情感极性, 因此多数现有文献[12,19]在构建情感词典时将形容词和副词作为潜在的情感词。但是部分的动词和名词也是拥有情感的, 这种特点在领域环境下尤为突出。如“这款车经常漏油!”, 此句中的动词“漏油”是一个明显的负面情感词。再比如: “真奇葩!每次启动都是龟速!”, 此句中的名词“奇葩”和“龟速”的情感极性都是负面的。文献[11]证明了英文环境下股票领域和政治领域词性的不同会带来情感词典表现差异, 但是中文和英文具有明显的语言差异, 尚没有研究文献表明中文环境下汽车领域情感词的词性对情感词典的效果具有明显差异。笔者认为在中文环境下情感词的词性会影响情感词典的表现。因此, 在本文提出的情感词典自动扩展框架中, 当进行词性标注后只保留名词、动词、形容词和副词这4类词作为潜在的情感词, 候选词集使用这4类词的组合: 形容词+副词、形容词+副词+动词、形容词+副词+名词、形容词+副词+动词+名词。

3.2 基于PMI的情感极性判别

PMI可以通过计算两个词或词组之间的文本共现率从而衡量它们之间的相似性[9], 因此使用PMI计算候选词与种子词之间的共现率。假设用${{w}_{1}},{{w}_{2}}$分别代表两个词或词组, 则PMI的计算如公式(1)所示。

$PMI({{w}_{1}},{{w}_{2}})=\mathrm{lo}{{\mathrm{g}}_{2}}\frac{p({{w}_{1}},{{w}_{2}})}{p({{w}_{1}})p({{w}_{2}})}$ (1)

其中, $p({{w}_{i}})$表示${{w}_{i}}$在语料库中出现的概率, $p({{w}_{1}},{{w}_{2}})$表示${{w}_{1}},{{w}_{2}}$在语料库中同时出现的概率, $PMI({{w}_{1}},{{w}_{2}})$表示${{w}_{1}},{{w}_{2}}$的关联程度。通过PMI公式计算候选词与种子词典里所有正面种子和负面种子的平均关联程度, 由此计算出候选词word的情感分数, 如公式(2)所示。

$\begin{align} & SentiScore(word)=\frac{1}{{{N}_{pos}}}\sum\limits_{i=1}^{{{N}_{pos}}}{PMI(word,posSee{{d}_{i}})-} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \frac{1}{{{N}_{neg}}}\sum\limits_{j=1}^{{{N}_{neg}}}{PMI(word,negSee{{d}_{j}})} \\ \end{align}$(2)

其中, $posSee{{d}_{i}}$和$negSee{{d}_{j}}$分别表示种子词典中的正面情感词和负面情感词, 对应的${{N}_{pos}}$和${{N}_{neg}}$分别表示正面情感词个数和负面情感词个数。因此, 使用PMI判断候选词word情感极性的表达式如公式(3)所示。

$polarity(word)=\left\{ \begin{align} & positive\ \ SentiScore(word)>{{H}_{1}} \\ & neutral\ \ \ -{{H}_{1}}<SentiScore(word)<{{H}_{1}} \\ & negative\ SentiScore(word)<-{{H}_{1}} \\ \end{align} \right.$(3)

其中, 阈值${{H}_{1}}$是一个非负数。当计算的候选词情感得分大于${{H}_{1}}$时, 该候选词被识别为正面词, 添加到正面种子词典; 当情感得分小于-${{H}_{1}}$时, 被识别为负面词, 对应添加到负面种子词典; 当情感得分介于-${{H}_{1}}$和${{H}_{1}}$时, 该候选词被识别为中性词。显然, 阈值${{H}_{1}}$越小, 最终的情感词典规模越大, 但是也有可能带来更多噪音, 影响情感分类的准确率。因此, 本文通过敏感性分析调整最佳阈值${{H}_{1}}$。

3.3 基于Word2Vec的情感极性判别

Word2Vec技术能够将语料库中的每个词映射成固定维度的向量, 当使用这种方法构造的词向量在计算两个词之间的夹角余弦距离时, 向量的夹角余弦值反映两个词之间的语义相似度[20,21]。假设用${{w}_{1}},{{w}_{2}}$分别代表两个词或词组, 利用Word2Vec将词映射成n维向量${{w}_{1}}\text{=}({{x}_{1}},{{x}_{2}}\cdot \cdot \cdot ,{{x}_{n}}),{{w}_{2}}\text{=}({{y}_{1}},{{y}_{2}}\cdot \cdot \cdot ,{{y}_{n}})$。通过夹角余弦公式计算候选词与种子词典中所有正面种子和负面种子的平均语义相似度, 从而得出候选词word的情感得分, 如公式(4)-公式(5)所示。

$\cos ({{w}_{1}},{{w}_{2}})=\frac{\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{n}{x_{i}^{2}}}\sqrt{\sum\limits_{i=1}^{n}{y_{i}^{2}}}}$ (4)

$\begin{align} & SentiScore(word)=\frac{1}{{{N}_{pos}}}\sum\limits_{i=1}^{{{N}_{pos}}}{\cos (word,posSee{{d}_{i}})-} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \frac{1}{{{N}_{neg}}}\sum\limits_{j=1}^{{{N}_{neg}}}{\cos (word,negSee{{d}_{j}})} \\ \end{align}$(5)

其中, 计算向量${{w}_{1}},{{w}_{2}}$的夹角余弦, 亦即${{w}_{1}},{{w}_{2}}$两个词之间的语义相似度。公式(5)计算在使用语义相似度的情况下候选词word的情感分数。与公式(2)中变量符号表达意义相同, 此处$\left\{ posSee{{d}_{i}}\text{ }\!\!|\!\!\text{ }i=1,2\cdot \cdot \cdot ,{{N}_{pos}} \right\}$和$\left\{ negSee{{d}_{j}}\text{ }\!\!|\!\!\text{ }j=1,2\cdot \cdot \cdot ,{{N}_{neg}} \right\}$分别表示正面种子词集和负面种子词集。基于此, 使用语义相似度判断候选词word的情感极性如公式(6)所示。

$polarity(word)=\left\{ \begin{align} & positive\ \ SentiScore(word)>{{H}_{2}} \\ & neutral\ \ \ -{{H}_{2}}<SentiScore(word)<{{H}_{2}} \\ & negative\ \ SentiScore(word)<-{{H}_{2}} \\ \end{align} \right.$ (6)

其中, 参数${{H}_{2}}$是一个非负数。与利用PMI判断候选词的情感极性类似, 当阈值${{H}_{2}}$越大, 则识别的情感词数量越少; 当阈值${{H}_{2}}$越小, 则识别的情感词数量越多, 但是也会识别出较多不相关的情感词, 从而造成情感词典表现效果的下降。因此, 需要通过敏感性分析设置合理的阈值${{H}_{2}}$

3.4 基于集成学习规则的情感极性判别

集成学习是一种常用且有效的机器学习方法, 基本思想是先训练构造出一组基学习器, 然后设计特定的规则将基学习器的结果进行融合作为最终的模型输出[20]。假设有T个独立分类器${{g}_{i}}(x),1<i<T$, 真实模型为f (x)。针对二分类问题记$y\in \{-1,1\}$, 若每个基分类器错误率为$\varepsilon $, 则$p({{g}_{i}}(x)\ne f(x))=\varepsilon $。假设融合规则是最简单的投票法, 则最终模型为$G(x)=sign(\sum\limits_{i=1}^{T}{{{g}_{i}}(x)})$, 最终集成模型的错误率为$P(G(x)\ne f(x))=\sum\limits_{k=0}^{\left\lfloor T/2 \right\rfloor }{\left( \begin{matrix} T \\ k \\\end{matrix} \right)}$ ${{(1-\varepsilon )}^{k}}{{\varepsilon }^{T-k}}\le \exp (-\frac{1}{2}T{{(1-2\varepsilon )}^{2}})$。因此, 集成模型的错误率随着基分类器的个数增加呈指数级下降。针对分类问题, 集成学习中基分类器结果融合规则有多种。文献[21]最早提出k个分类器进行n元分类的5种融合集成规则Max_Rule, Min_Rule, Product_Rule, MajorityVote_Rule和Sum_Rule, 这5种经典的集成规则被证明简单且有效, 其中的投票规则应用最为广泛[22]。此后的文献提出了一些改进, 如文献[23]考虑新数据与已分类数据的距离Di, 计算单元变为$p({{Y}_{i}})/{{D}_{ik}}$; 文献[24]考虑每种分类结果的AUC值, 计算单元设计为$p({{Y}_{i}})\times AU{{C}_{are{{a}_{k}}}}$。表1整理上述文献集成模型设计的融合规则。

表1 集成模型融合规则

传统的投票规则Majority Vote Rule将每个基分类器的权重都视为单位1, 直接比较每个类标Yi获得的投票数, 从而决定集成模型的分类结果为获得票数最多的类标。本文的分类背景是将一个未知情感的候选词分为正面词、负面词和中性词三类。显然根据生活认知, 在足够大的文本语料中, 正面词、负面词和中性词出现的频率不同, 从而将一个候选词分成正面、中性、负面三种结果的概率也不同, 因此投票规则需要考虑不同分类概率对融合结果造成的影响。本文将基于PMI的情感极性判别模型和基于Word2Vec的情感极性判别模型作为两个基分类器C1C2, 对于分类结果negative, neutralpositive, 记$y\in \{{{Y}_{-1}},{{Y}_{0}},{{Y}_{1}}\}$, $P({{Y}_{-1}}),P({{Y}_{0}}),P({{Y}_{\text{1}}})$分别表示其分类概率。首先需要提出如下两个假设。

假设1: $P({{Y}_{-1}})<P({{Y}_{0}})P({{Y}_{1}})<P({{Y}_{0}})$

假设2: 若Y-1Y1获得票数相同, 则将分类结果取Y0

提出假设1是因为在一个足够大的语料库中正面词、负面词出现的频率要小于中词性, 从而分类器对某个候选词分成正面词、负面词的概率小于分成中性词的概率。提出假设2是因为在k个分类器, n元分类的背景下, 若票数相同需要事先人工定义处理规则。在本文两个分类器下且positivenegative获得票数相同时, 在两个基分类器都是有效可靠的前提下, 此时取分类结果为“折中的”Y0。至此, 本文提出一种改进的投票规则Adjusted Majority Vote Rule (AMVR), 其分类策略如公式(7)所示。

$max\left\{ \sum\limits_{{{C}_{1}},{{C}_{2}}}{{{Y}_{-1}}/P({{Y}_{-1}})},\sum\limits_{{{C}_{1}},{{C}_{2}}}{{{Y}_{0}}/P({{Y}_{0}}),}\sum\limits_{{{C}_{1}},{{C}_{2}}}{{{Y}_{1}}/P({{Y}_{1}})} \right\}$ (7)

在Adjusted Majority Vote Rule规则下, 两个分类器的融合规则是计算每个类标所获投票数与每个类标的分类概率乘积, 取结果最大的所在类标作为最终分类结果。例如当C1和C2的分类结果分别是Y1和Y0(不区分C1和C2具体是哪个基分类器), 说明Y1与Y0所获投票数相同, 再由假设1知$\sum\limits_{{{C}_{1}},{{C}_{2}}}{{{Y}_{1}}/P({{Y}_{1}})}<$ $\sum\limits_{{{C}_{1}},{{C}_{2}}}{{{Y}_{0}}/P({{Y}_{0}}),}$ 所以最终分类结果是正面词。

4 实验与结果分析
4.1 数据与预处理

从汽车之家的论坛频道[25]获取评论作为汽车领域用户生成内容的语料库, 删除只有标点符号而无文字的评论后共计309 937条。为构造测试集, 从语料库中随机抽取5 000条评论进行人工标注, 标注过程请三位研究生共同参与。本文关注情感词典进行二分类任务的准确率, 因此删除标注结果里的中性和无关评论。为剔除数据不平衡对分类带来的影响, 只保留等量的正面和负面评论, 最终测试集包含正面评论和负面评论各600条。使用HowNet情感词典作为种子词典, 其中褒义词数836个, 贬义词1 254个。

数据预处理方面, 使用Python调用jieba[26]分词包进行中文分词和词性标注, 加入搜狗输入法词库频道的汽车词库[27]作为用户词典。词性标注环节保留名词、动词、形容词和副词作为候选词, 其中名词的数量大约是其他三类候选词总数的两倍多。因为有些名词很少含有情感, 为了提高实验的效率, 将专有名词、地点名词、人物名词从名词候选词集中进行剔除。将候选词集按照词性分成4组, 每组候选词的词性和数量如表2所示。

表2 候选词集列表

4.2 实验设计

将不同方法构造的情感词典在测试集上进行情感分类实验, 通过对比情感词典的表现差异以验证方法的有效性。利用SentiStrength[28]情感分析工具进行文本情感二分类任务, 评价指标选择准确率(Accuracy)。首先需要确定基于PMI和基于Word2Vec扩展方法的最优候选词集和阈值。这一过程设计9组实验, 每组的情感词典如表3所示, 对每组在测试集上的分类准确率为标准进行敏感性分析, 从中获得准确率最高情况下的参数组合。

表3 确定最优参数的实验组设计

表4表5分别表示在基于PMI扩展方法下和在基于Word2Vec扩展方法下不同的候选词集与阈值H1H2参数组合时的情感词典分类准确率。从表4表5中选取准确率达到最优时的H1与候选词集组合, H2与候选词集组合, 再按照3.4节方法构建融合PMI和Word2Vec方法的情感词典。

表4 不同H1取值对基于PMI生成情感词典分类准确率

表5 不同H2取值对基于Word2Vec生成情感词典分类准确率

4.3 结果分析

表4表5分别显示H1H2取不同值的情况下, 基于PMI生成情感词典的分类准确率。从表4可以看出, 当阈值H1从0.1上升到0.3再上升到1.0时, 所有候选词集构建的情感词典分类准确率先增加后减小。这是因为当H1较小时, 情感词典包含的词的数量增多, 引入噪音, 所以准确率降低; 随着H1变大, 噪音减少, 但是被识别的情感词数量减少, 造成情感词典覆盖率不全, 因此准确率也降低。同时可以看出, 情感词典中词性的不同对于情感词典的分类效果具有明显的差异。阈值H1固定情况下, 候选词集为形容词+副词+动词+名词时所构造的情感词典, 即PMI_HowNet_ ARVN, 其分类准确率要优于候选词集为形容词、副词、动词、名词的其他组合所构造的情感词典。另外, 无论使用何种组合的候选词, 对通用词典进行扩展后得到的情感词典, 其表现效果都优于没有扩展的情感词典HowNet。这也说明通用情感词典表现效果在特定文本领域环境下要明显劣于领域词典的分类表现, 这正是领域情感词典构建的意义所在。表5反映的规律与表4类似。当H2大于0.8时, 纵向来看所有情感词典的准确率性不再变化, 同时横向来看, 使用ARVN构造的情感词典与使用其他候选词集构造的情感词典准确率也不再变化。这是由于Word2Vec是计算不同词语之间的语义相似度再利用阈值进行判断正负的。当阈值H2大到某一程度时, 由于语料库中词语之间的语义相似性程度本身高于某个临界值, 所识别的词语已经固定, 即使H2变大, 也不会减少识别的情感词数量, 最终表现为情感词典的准确率不再变化。

表6通过5组对比实验展示不同扩展方法生成的情感词典准确率。

表6 不同方法生成词典准确率对比

第4组MajorityVoteRule_Lexicon表示使用传统投票法规则的基于PMI和Word2Vec方法生成的词典, 平均准确率为0.849。第5组AMVR_Lexicon代表使用本文提出的Adjusted Majority Vote Rule的基于PMI和Word2Vec方法生成的情感词典。其准确率达到最高的0.862, 高于第4组1.3%。第4组和第5组词典的平均准确率分别高于第1组原始情感词典HowNet 20.3%和21.6%, 高于第2组使用PMI得到的PMI_How Net_best词典2.4%和3.7%, 高于第3组使用Word2Vec得到的Word2Vec_HowNet_best词典0.8%和2.1%。上述结果说明综合利用PMI和Word2Vec构造情感词典能显著提高准确率, 同时验证了本文提出的AMVR投票集成规则在识别情感词分类场景下准确率要优于传统的投票集成规则。另外, 第5组词典的正面情感词数、负面情感词数均多于对比组HowNet、PMI_HowNet_best、Word2Vec_HowNet_best, 说明AMVR投票集成规则能同时准确覆盖较多的领域情感词汇。表7展示了使用ARVR集成规则构造的领域情感词典的部分情感词。

表7 AMVR_Lexicon情感词典部分情感词展示

5 结 语

针对现有情感词典自动构建过程中使用单一识别算法存在的缺点进行改进, 综合点互信息和语义相似度识别新词的情感极性。情感分类对比实验表明该方法在保证准确率提升的同时, 能够大幅增加识别的情感词数量。另外通过实验验证了情感词典的词性分布能够影响情感词典表现效果。

由于语料来源单一, 所提出的领域情感词典扩展框架具有一定的局限性。后期计划应用于不同的业务场景, 以验证这种框架在不同领域的适应性。

作者贡献声明

蒋翠清: 提出研究思路, 设计研究方案;

郭轶博, 刘尧: 分析数据;

郭轶博: 完成实验, 撰写论文;

蒋翠清, 郭轶博, 刘尧: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail:guoyibo2016@163.com。

[1] 蒋翠清, 郭轶博, 刘尧. UGC_corpus.txt. 汽车评论语料数据.

[2] 郭轶博. PMI.py. PMI实验脚本程序.

[3] 郭轶博. Word2Vec.model. 词向量输出文件.

[4] 郭轶博. SentiStrength_output.xlsx. 情感分析标记结果和输出结果文件.

参考文献

[1] Liu B.Sentiment Analysis and Opinion Mining[A]//Synthesis Lectures on Human Language Technologies[M]. Morgan & Claypool Publishers, 2012: 152-153.
[本文引用:1]
[2] Hogenboom A, Heerschop B, Frasincar F, et al.Multi-lingual Support for Lexicon-based Sentiment Analysis Guided by Semantics[J]. Decision Support Systems, 2014, 62(2): 43-53.
61We explore the expansion of lexicon-based sentiment analysis from English to Dutch.61We map sentiment from an English lexicon to a new one for Dutch through semantics.61Our method significantly outperforms machine translation approaches.61Language-specific lexicon creation has potential as well, if large seed sets exist.61Sentiment not only relates to word meanings, but also has language-specific aspects.
DOI:10.1016/j.dss.2014.03.004      URL     [本文引用:1]
[3] Wu F, Huang Y, Song Y, et al.Towards Building a High-quality Microblog-specific Chinese Sentiment Lexicon[J]. Decision Support Systems, 2016, 87: 39-49.
61An effective and efficient method to detect the popular use-invented new words in Chinese microblogs.61Three kinds of heterogenous sentiment knowledge are extracted for building sentiment lexicon.61A unified framework incorporating various kinds of sentiment knowledge for microblog-specific sentiment lexicon construction.61Our microblog-specific sentiment lexicon outperforms existing sentiment lexicons.
DOI:10.1016/j.dss.2016.04.007      URL     [本文引用:1]
[4] Fellbaum C, Miller G.WordNet: An Electronic Lexical Database[M]. MIT Press, 1998.
[本文引用:2]
[5] Stone P J, Dunphy D C, Smith M S.The General Inquirer: A Computer Approach to Content Analysis[J]. Information Storage & Retrieval, 1966, 4(4): 375-376.
[本文引用:1]
[6] Dong Z, Dong Q.HowNet - A Hybrid Language and Knowledge Resource[C]// Proceedings of the 2003 International Conference on Natural Language Processing and Knowledge Engineering. 2003.
[本文引用:1]
[7] 王科, 夏睿. 情感词典自动构建方法综述[J]. 自动化学报, 2016,42(4): 495-511.
<p>情感词典作为判断词语和文本情感倾向的重要工具, 其自动构建方法已成为情感分析和观点挖掘领域的一项重要研究内容. 本文整理了现有的中、英文情感词典资源, 同时分别从知识库、语料库、以及两者结合的角度, 归纳现有英文和中文情感词典的构建方法, 分析了各种方法的优缺点, 并总结了情感词典构建中的若干难点问题. 之后, 我们回顾了情感词典性能评估方法及相关评测竞赛. 最后总结了情感词典构建任务的发展前景以及一些亟需解决的问题.</p>
DOI:10.16383/j.aas.2016.c150585      Magsci     URL     [本文引用:1]
(Wang Ke, Xia Rui.A Survey on Automatical Construction Methods of Sentiment Lexicons[J]. Acta Automatica Sinica, 2016, 42(4): 495-511.)
[8] Loughran T, Mcdonald B.When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10‐Ks[J]. Journal of Finance, 2011, 66(1): 35-65.
ABSTRACTPrevious research uses negative word counts to measure the tone of a text. We show that word lists developed for other disciplines misclassify common words in financial text. In a large sample of 10-Ks during 1994 to 2008, almost three-fourths of the words identified as negative by the widely used Harvard Dictionary are words typically not considered negative in financial contexts. We develop an alternative negative word list, along with five other word lists, that better reflect tone in financial text. We link the word lists to 10-K filing returns, trading volume, return volatility, fraud, material weakness, and unexpected earnings.
DOI:10.1111/j.1540-6261.2010.01625.x      URL     [本文引用:1]
[9] Church K W, Hanks P. Word Association Norms, Mutual Information,Lexicography[J]. Computational Linguistics, 1990, 16(1): 76-83.
[本文引用:2]
[10] Turney P D, Littman M L.Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transactions on Information Systems, 2003, 21(4): 315-346.
DOI:10.1145/944012      URL     [本文引用:1]
[11] Deng S, Sinha A P, Zhao H.Adapting Sentiment Lexicons to Domain-Specific Social Media Texts[J]. Decision Support Systems, 2017, 94: 65-76.
61We propose a method to adapt existing sentiment lexicons for domain-specific sentiment classification.61The proposed method addresses challenges from both content domain and language domain.61We evaluate our method using two large developing corpora and five existing sentiment lexicons as seeds and baselines.61The evaluation results demonstrate the usefulness of our method.
DOI:10.1016/j.dss.2016.11.001      URL     [本文引用:2]
[12] 郭顺利, 张向先. 面向中文图书评论的情感词典构建方法研究[J]. 现代图书情报技术, 2016(2): 67-74.
【目的】探讨中文图书评论情感词典构建方法,以便进行用户图书评论的情感分析。【方法】参照相关研究将用户情感分为7类,对采集到的语料库进行分词,结合基础情感词典得到中文图书评论的情感词集,选取各类情感种子词;利用改进的SO-PMI算法和同义词词林扩展方法判别词语的情感类别;以实际的图书评论作为语料进行实验验证。【结果】提出一种中文图书评论的情感词典构建方法,其平均准确率、平均召回率及F1的均值分别为0.90、0.83和0.85。【局限】语料库小,样本范围具有一定的局限性。【结论】实验结果表明本文方法具有较高的有效性和可靠性,能够有效地进行用户图书评论的情感分析。
URL     [本文引用:2]
(Guo Shunli, Zhang Xiangxian.Building Sentiment Analysis Dictionary for Chinese Book Reviews[J]. New Technology of Library and Information Service, 2016(2): 67-74.)
[13] 郗亚辉. 产品评论中领域情感词典的构建[J]. 中文信息学报, 2016, 30(5): 136-144.
领域情感词典是情感分析最重要的基础。由于产品评论的数量巨大、领域众多,如何自动构建领域情感词典已经成为近年来的一个研究热点。该文提出了一个两阶段的领域情感词典构建算法。第一阶段,利用情感词间的点互信息和上下文约束,使用基于约束的标签传播算法构造基本情感词典;第二阶段,根据情感冲突的频率来识别领域相关情感词,并根据其上下文约束以及修饰的特征完善领域情感词典。实验结果表明,该方法在实际产品评论数据集上取得了较好的效果。<br/>
Magsci     URL     [本文引用:1]
(Xi Yahui.Construction of Domain-specific Sentiment Lexicon in Product Reviews[J]. Journal of Chinese Information Processing, 2016, 30(5): 136-144.)
[14] 朱嫣岚, 闵锦, 周雅倩, . 基于HowNet的词汇语义倾向计算[J]. 中文信息学报, 2006, 20(1): 14-20.
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。
DOI:10.3969/j.issn.1003-0077.2006.01.003      URL     [本文引用:1]
(Zhu Yanlan, Min Jin, Zhou Yaqian, et al.Semantic Orientation Computing Based on HowNet[J]. Journal of Chinese Information Processing, 2006, 20(1): 14-20.)
[15] Mikolov T, Chen K, Corrado G, et al.Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv:1301.378.
[本文引用:1]
[16] Mikolov T, KarafiÁT M, BURGET L, et al. Recurrent Neural Network Based Language Model[C]//Proceedings of the 2010 Conference of the International Speech Communication Association, Makuhari, Chiba, Japan. 2010.
[本文引用:1]
[17] 杨小平, 张中夏, 王良, . 基于Word2Vec的情感词典自动构建与优化[J]. 计算机科学, 2017, 44(1): 42-47.
情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典1)在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。
DOI:10.11896/j.issn.1002-137X.2017.01.008      URL     [本文引用:1]
(Yang Xiaoping, Zhang Zhongxia, Wang Liang, et al.Automatic Construction and Optimization of Sentiment Lexicon Based on Word2Vec[J].Computer Science, 2017, 44(1): 42-47.)
[18] 王仁武, 宋家怡, 陈川宝. 基于Word2vec的情感分析在品牌认知中的应用研究[J]. 图书情报工作, 2017, 61(22): 6-12.
[目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论语料库进行预处理,结合深度学习的Word2vec词向量技术构建产品特征词和情感词词库,进一步构造情感概念对进行情感评分,并将其用于分析品牌产品特定特征的用户情感。[结果/结论]通过Word2vec构建的情感词典相较于传统方法(例如一般的情绪词表)进行情感分析,在情感分析的准确率上有所提高,再结合有效的情感概念对构造与情感评分,可以有效地理解用户的品牌认知。
DOI:10.13266/j.issn.0252-3116.2017.22.001      URL     [本文引用:1]
(Wang Renwu, Song Jiayi, Chen Chuanbao.Application of Sentiment Analysis Based on Word2vec in Brand Cognition[J]. Library and Information Service, 2017, 61(22): 6-12.)
[19] Qiu G, Liu B, Bu J, et al.Expanding Domain Sentiment Lexicon Through Double Propagation[C]// Proceedings of the 21st International Jont Conference on Artifical Intelligence. 2009.
[本文引用:1]
[20] Filho J L, Canuto A P, Santiago R N.Investigating the Impact of Selection Criteria in Dynamic Ensemble Selection Methods[J]. Expert Systems with Applications, 2018,106: 141-153.
Ensemble of Classifiers are composed of parallel-organized components (individual classifiers) whose outputs are combined using a combination method that provides the final output for an ensemble. In this context, Dynamic Ensemble Systems (DES) is an ensemble-based system that, for each test pattern, a different ensemble structure is defined, in which a subset of classifiers is selected from an initial pool of classifiers. During the selection process of a DES, any criterion can be used, being the most important ones accuracy and distance. Distance measures are used to assess the distance of the classifier outputs within a validation set and the main examples of this measure are diversity and similarity. In this paper, we investigate the impact of selection criteria in DES methods. More specifically, we focus on the use of different distance measures (diversity and similarity) as selection criteria. In other to do this, an empirical analysis has been conducted using six different DES methods (three of them are existing methods and the remaining three are proposed in this paper) and with 20 different classification datasets. Our findings indicated that a distance measure improves the overall performance of the state-of-the-art ensemble generation methods.
DOI:10.1016/j.eswa.2018.04.002      URL     [本文引用:2]
[21] Kittler J V, Hatef M, Duin R W, et al.On Combining Classfiers[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998, 20(3): 226-239.
[本文引用:3]
[22] 黄伟, 范磊. 基于多分类器投票集成的半监督情感分类方法研究[J]. 中文信息学报, 2016, 30(2): 41-49.
情感分类是目前自然语言处理领域的一个具有挑战性的研究热点,该文主要研究基于半监督的文本情感分类问题。传统基于Co-training的半监督情感分类方法要求文本具备大量有用的属性集,其训练过程是线性时间的计算复杂度并且不适用于非平衡语料。该文提出了一种基于多分类器投票集成的半监督情感分类方法,通过选取不同的训练集、特征参数和分类方法构建了一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使训练集扩大一倍并更新训练模型。该方法使得子分类器可共享有用的属性集,具有对数时间复杂度并且可用于非平衡语料。实验结果表明我们的方法在不同语种、不同领域、不同规模大小,平衡和非平衡语料的情感分类中均具有良好效果。
Magsci     URL     [本文引用:1]
(Huang Wei, Fan Lei.Semi-supervised Sentiment Classification Based on Ensemble Learning with Voting[J]. Journal of Chinese Information Processing, 2016, 30(2): 41-49.)
[23] Sun Z, Song Q, Zhu X, et al.A Novel Ensemble Method for Classifying Imbalanced Data[J]. Pattern Recognition, 2015, 48(5): 1623-1637.
The class imbalance problems have been reported to severely hinder classification performance of many standard learning algorithms, and have attracted a great deal of attention from researchers of different fields. Therefore, a number of methods, such as sampling methods, cost-sensitive learning methods, and bagging and boosting based ensemble methods, have been proposed to solve these problems. However, these conventional class imbalance handling methods might suffer from the loss of potentially useful information, unexpected mistakes or increasing the likelihood of overfitting because they may alter the original data distribution. Thus we propose a novel ensemble method, which firstly converts an imbalanced data set into multiple balanced ones and then builds a number of classifiers on these multiple data with a specific classification algorithm. Finally, the classification results of these classifiers for new data are combined by a specific ensemble rule. In the empirical study, different class imbalance data handling methods including three conventional sampling methods, one cost-sensitive learning method, six Bagging and Boosting based ensemble methods, our previous method EM1vs1 and two fuzzy-rule based classification methods were compared with our method. The experimental results on 46 imbalanced data sets show that our proposed method is usually superior to the conventional imbalance data handling methods when solving the highly imbalanced problems. (C) 2014 Elsevier Ltd. All rights reserved.
DOI:10.1016/j.patcog.2014.11.014      URL     [本文引用:2]
[24] Li Y, Guo H, Liu X, et al.Adapted Ensemble Classification Algorithm Based on Multiple Classifier System and Feature Selection for Classifying Multi-class Imbalanced Data[J]. Knowledge-Based Systems, 2016, 94: 88-104.
Learning from imbalanced data, where the number of observations in one class is significantly rarer than in other classes, has gained considerable attention in the data mining community. Most existing literature focuses on binary imbalanced case while multi-class imbalanced learning is barely mentioned. What's more, most proposed algorithms treated all imbalanced data consistently and aimed to handle all imbalanced data with a versatile algorithm. In fact, the imbalanced data varies in their imbalanced ratio, dimension and the number of classes, the performances of classifiers for learning from different types of datasets are different. In this paper we propose an adaptive multiple classifier system named of AMCS to cope with multi-class imbalanced learning, which makes a distinction among different kinds of imbalanced data. The AMCS includes three components, which are, feature selection, resampling and ensemble learning. Each component of AMCS is selected discriminatively for different types of imbalanced data. We consider two feature selection methods, three resampling mechanisms, five base classifiers and five ensemble rules to construct a selection pool, the adapting criterion of choosing each component from the selection pool to frame AMCS is analyzed through empirical study. In order to verify the effectiveness of AMCS, we compare AMCS with several state-of-the-art algorithms, the results show that AMCS can outperform or be comparable with the others. At last, AMCS is applied in oil-bearing reservoir recognition. The results indicate that AMCS makes no mistake in recognizing characters of layers for oilsk81-oilsk85 well logging data which is collected in Jianghan oilfield of China.
DOI:10.1016/j.knosys.2015.11.013      URL     [本文引用:2]
[25] 汽车之家论坛[EB/OL]. [2018-03-01].
URL     [本文引用:1]
(AutoHome Forum[EB/OL]. [2018-03-01]..)
URL    
[26] 结巴中文分词[CP/OL]. [2018-03-01]..
URL     [本文引用:1]
(Jieba: Chinese Text Segmentation[CP/OL] . [2018-03-01]..)
URL    
[27] 搜狗词库-汽车[DB/OL]. [2018-03-01]..
URL     [本文引用:1]
(Sougou Typewriting Lexicon-Car [DB/OL]. [2018-03-01]..)
URL    
[28] Chalothorn T, Ellman J.Sentiment Analysis of Web Forums: Comparison Between Sentiwordnet and Sentistrength[C]// Proceedings of the 2012 International Conference on Software Technology and Engineering. 2012.
[本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
社交媒体
情感分析
情感词典
PMI
Word2Vec

Social Media
Sentiment Analysis
Sentiment Lexicon
PMI
Word2Vec

作者
蒋翠清
郭轶博
刘尧

Jiang Cuiqing
Guo Yibo
Liu Yao