1 引 言
随着网络技术的蓬勃发展以及广泛使用, 互联网为人们提供在线陈述观点、发布评论、表达情感的便捷平台。因此积累下大量的用户评论, 其中蕴藏着丰富的包含公众情感倾向等信息的数据资源。Web 2.0时代的到来, 使得微博信息的传播速度远远超过其他传统形式的社交平台, 产生的社会影响力越来越大。微博舆情分析是近年来的一个研究热点, 即使用情感分析(Sentiment Analysis, SA)、机器学习(Machine Learning, ML)等技术对网络评论的文本进行分析, 判断用户的情感倾向, 从而获得关于舆论导向的重要信息。传统的微博舆情分析仅仅考虑微博文本内容, 借助通用情感词典、固定情感强度值完成, 公众情感倾向预测准确率有待提高。针对上述问题, 本文构建一种基于话题聚类及情感强度的微博舆情分析模型, 可有效提高公众的情感倾向预测准确性, 帮助决策者监控舆论导向, 了解社会动态, 以做出更明智的商业决策。
2 相关研究
综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究。在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础。目前国内外最常用的研究方式多基于机器学习的方法。如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练。文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词。相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差。中文微博舆情分析的另一关键技术是话题聚类。Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题。Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类。文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果。吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类。文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题。Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类。当前微博话题聚类方法一般采用层次化学习和预定义的本体树。但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息。情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析。Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性。文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法。Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度。文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度。上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性。
综观以上方法, 其中存在一些方面有待深入研究:
(1) 情感词提取与标注: 微博文本涉及领域广、词语更新快, 而通用情感词典存在领域无关性及知识覆盖率较低的问题。情感词在不同的语境中有不同的表达方式, 不同的话题的语言规则和词库判断标准都存在不同。文献[5-8,14-19]使用机器学习等情感词自动扩展的方法训练数据进行情感分类, 但当新的情感词出现时, 仅仅依靠现有的特定领域间接提取, 标注也会产生很大的误差。
(2) 情感强度: 由于情感强度具有模糊性, 大多数研究基于划分情感强度级别方式对情感词进行分类, 情感词权值过于固定且未能体现具体量化结果, 且情感强度静态研究易造成后续预测值出现较大偏差。这正是本文研究的切入点。
由于微博话题具有动态性及时效性, 评论文本的情感实际上是不断变化的。针对以上两点不足, 本文充分考虑情感词抽取过程中短文本相似度的漂移及情感强度模糊性的问题, 通过改进的话题聚类及情感强度量化方法建立一种舆情分析模型, 提高公众舆论倾向预测准确性, 在现实层面对相关部门决策者加强舆情监控提供有力的理论支撑。
3 基于话题聚类与情感强度的中文微博舆情分析模型
3.1 研究框架和思路设计
本文选取新浪微博为研究平台, 提出一种基于话题聚类及情感强度的微博舆情分析模型, 对情感词权值、话题相似语义度及情感强度进行量化计算, 以实现对微博话题热点的精准跟踪与预测。模型如图1 所示。模型包含以下4个部分。
图1 基于话题聚类与情感强度的中文微博舆情分析研究模型
(1) 数据集成获取与预处理模型: 包括数据预处理与微博情感信息提取两个步骤, 主要任务是对以Java语言编写程序爬取的文本数据进行清洗, 采用基于关联规则的数据挖掘算法提取特征词/情感词。
(2) 微博话题聚类模型: 该模型首先在有序判别分析(Ordinal Discrimination Analysis, OR-DisA)的基础上提出一种划分情感强度级别的方法, 提取标号有序的情感词, 然后通过典型相关分析(Canonical Correlated Analysis, CCA)获取微博话题情感词集合之间的相关系数以进行微博话题的准确聚类。
(3) 话题情感强度计算模型: 基于情感权值定义引入一种情感极性量化算法, 得到话题情感强度值。
(4) 公众情感倾向预测模型: 通过时序分析对公众的情感倾向变化趋势进行跟踪及预测, 得到公众情感倾向预测图。
3.2 数据集成获取与预处理
(1) 数据预处理
文本处理技术是一种相对成熟的自然语言处理技术, 包括词性标注、分词、命名实体识别以及过滤停用词等。为了研究微博热点话题的情感倾向, 本文在Windows操作系统下, 以Java语言编写程序获取相关样本数据, 并适当地对得到的文本数据进行预处理。基于规则提取微博中转发微博、图片、视频等信息。根据微博文本特性对表情符号、网址(URL)等进行过滤, 清洗无意义的微博文本。
(2) 微博情感信息抽取
特征词抽取是矢量抽取预处理数据集中用于分类任务的特征。在特征词抽取方法中, 使用基于关联规则的数据挖掘算法识别公众情感评价中可以代表情感倾向特征的高频词, 即特征词。根据NLPIR软件中标记为“/n”的名词经过人工筛选定义为情感特征语料库, 用置信值Qi 表示情感特征词在语料库中出现的频率。在综合把握公众情感倾向的现实情况基础上设定一个较为合理的支持度阈值Pi , 对于任意名词或词组的置信度Qi 大于阈值Pi , 则界定这个词是一个高频词汇, 并纳入特征词集, 另设定一个可信度阈值Pj , 利用高频词获取得到高频模式以分析Pj 的关联规则。例如, 在一个包含{M , N }的词组中, 根据公式$support\text{ }(M\ge N)=P(M\bigcup N)$计算出该词组的置信度Q 1 , 设P 1 为支持度阈值, 若Q 1 >P 1 , 则{M , N }被定义为高频词组, 并生成高频模式MN 。设可信度阈值为P 2 , 根据公式$confidence\text{ }(M\ge N)=$ $P(M\left| N \right.)$得到MN 的置信度Q 2 , 若Q 2 >P 2 , 则认定MN 是关联模式。通过上述方法抽取文本中对微博主观分类和倾向性分类产生影响的新高频词作为特征词, 并将从微博文本中挖掘得到高频词组成公众情感特征词集。在特征词提取过程中遵循如下规则。
①词和词频。在预处理后的数据集中提取频率较高的特征词。高频词比共现词可以取得更好的效果。
②部分词性。判断主观性和情感倾向的良好指标, 如形容词、副词、一些动词和名词。通过解析或依赖生成树语法创建一个关系模式。
③意见词和短语。不同于具体词语, 一些表达情感的短语和成语也可以用作特征, 如“耗资不菲”。
④专有名词中形容词的位置。一个专有名词中的形容词在文本中的位置可以影响这个术语在文本的总体情感上的差异。如“中国长城”中“长”不被当作形容词考虑, 不属于形容词。
⑤否定词。否定词通常会改变一个意见的极性。如果评论中出现“不”、“不是”等否定词, 则将否定词与形容词的组合作为一个词考虑。
3.3 基于有序判别分析与典型相关分析的话题聚类方法
(1) 有序判别分析
有序判别分析[14 ] 是根据时间序列多元数据判断指标所属类别的一种多元统计分析方法, 目的是自动判别固定离散样本的类别。在周航星等[15 ] 提出的有序判别分析的基础上进行如下修改: 针对不同情感词的情感强度不能形成区分度这一问题提出一种划分情感强度级别的方法判别情感词的极性, 情感褒贬性集合分别为负面(高、中、低)、正面(高、中、低)及中性。例如, 在一个5星产品服务评分系统中, 消费者给定特定的评分, 分值越高, 表明其产品服务综合质量越高, 其对应的消费者情感强度级别越高, 情感词褒义性也就越强。划分这些具体情感词极性可以对应到相应的有序标号, 消费者评价一份产品服务的属性最终决定该产品服务的等级(标号), 也意味着标号提供有序信息。这就保证计算得到的情感词的有序性。其主要思路是计算情感褒贬集合中的情感词与情感极性标号之间距离最小。本文分析方法在保证各样本数据相关性的前提下, 使得不同类别的数据尽可能分开, 还能将数据按照一定的顺序排列。具体方法实现如下。
设$\{{{s}_{i}},{{l}_{i}}\}_{i=1}^{N}\in {{R}^{l}}\times R$是一组训练样本, 其中, ${{s}_{i}}\in {{R}^{l}}$表示输入的情感词, ${{l}_{i}}\in \{1,2,\cdot \cdot \cdot ,k,\cdot \cdot \cdot ,N\}$表示情感词对应的情感极性标号, Rl 与R 集合一一对应, N 为情感词集合R 与其对应情感极性的集合Rl 中元素的个数, 情感词极性散度矩阵与情感褒贬性标号散度矩阵分别为${{S}_{\alpha }}$与${{S}_{\beta }}$, 如公式(1)-公式(2)所示。
${{S}_{\alpha }}=\frac{1}{N}\sum\limits_{k=1}^{N}{\sum\limits_{x\in {{X}_{k}}}{(x-{{m}_{k}}){{(x-{{m}_{k}})}^{T}}}}$ (1)
${{S}_{\beta }}=\frac{1}{N}\sum\limits_{k=1}^{N}{\sum\limits_{z\in {{Z}_{k}}}{(z-{{n}_{k}}){{(z-{{n}_{k}})}^{T}}}}$ (2)
其中, ${{X}_{k}}$表示k 类的情感词集合, mk 为第k 个情感词; 同理, Zk 表示情感褒贬性标号集合, nk 表示第k 个情感褒贬性标号。为了使得情感词与其对应的情感极性标号距离最小, 即二者情感匹配度最高, 利用传统的线性判别分析(Linear Discriminate Analysis, LDA)得出如公式(3)所示的优化目标。
$\underset{\alpha }{\mathop{\min }}\,\frac{{{w}^{T}}{{S}_{\alpha }}w}{{{w}^{T}}{{S}_{\beta }}w}$ (3)
考虑提取过程中保留有序的信息, 建立如公式(4)所示的优化目标。
$\underset{\alpha .\eta }{\mathop{\min }}\,{{w}^{T}}{{S}_{\alpha }}w-c\eta $ (4)
$subject\text{ }to\text{ }{{w}^{T}}({{m}_{k+1}}-{{m}_{k}})\ge \eta ,k=1,2,\cdot \cdot \cdot ,k-1$
其中, c 为惩罚因子, ${{m}_{k+1}}$为第$k+1$个情感词。若$\eta >0$, 则各个情感词能够按照情感褒贬级别标号等级保持有序。通过有序判别分析, 可以保证样本中的情感词有序地对应相应的情感词强度级别, 有效地适应情感词具有的模糊特性, 提升分类精度。
(2) 典型相关分析
典型相关分析[16 ] 是Hotelling于1936年提出的一种多元分析方法, 主要目的是最大化两组变量之间的关系考察整体之间的相关性。在基于话题聚类与情感强度的中文舆情分析模型中, 使用典型相关分析(CCA)找到两个微博话题在语义上的相似度, 主要思路是利用微博话题与集合中话题两组变量所抽取的特征词之间的相关系数描述两组变量整体的相关关系。因此, 通过典型相关分析得到的两组特征词语义间的相关系数的大小可以准确反映两组微博话题之间的相关程度的大小。设微博话题集合$D=\{({{x}_{n}},{{y}_{n}})\}_{n=1}^{N}$, N 为话题数量, ${{x}_{n}}$与${{y}_{n}}$分别表示微博话题与话题集合。令${{f}_{u}}(x)\equiv {{u}^{T}}x$以及${{g}_{v}}(y)\equiv {{v}^{T}}y$分别表示微博话题${{x}_{n}}$与话题集合${{y}_{n}}$相对应的维值。典型相关分析的目标是使得微博话题${{F}_{u}}\equiv \{{{f}_{u}}({{x}_{n}})\}_{n=1}^{N}$与话题集合${{G}_{v}}\equiv \{{{g}_{v}}(y{}_{_{n}})\}_{n=1}^{N}$之间的皮尔森相关系数(Pearson)最大, 即二者语义上的相似度越大, 则归类为话题集合中已存在话题, 反之, 则独立成为一个话题。话题间语义相似度计 算[16 ,17 ] 如公式(5)所示。
$\underset{u\in {{R}^{p}},v\in {{R}^{_{q}}}}{\mathop{\max }}\,Cov({{F}_{u}},{{G}_{v}})$ (5)
$subject\text{ }to\text{ }Var({{F}_{u}})=Var({{G}_{v}})=1$
其中, $Var(.)$与$Cov(.,.)$分别为数据间的方差和标准差。$u,v$的最优解可以通过求解特征值以及特征矢量求得。
利用拉格朗日乘数法可得到公式(6)。
$L(u,v)={{u}^{T}}{{m}_{x}}_{y}v-\frac{{{\lambda }_{1}}}{2}({{u}^{T}}{{m}_{x}}u-1)-\frac{{{\lambda }_{2}}}{2}({{v}^{T}}{{m}_{y}}v-1)$(6)
对$u,v$求偏导, 如公式(7)-公式(8)所示。
$\frac{\partial L}{\partial u}={{m}_{x}}_{y}v-{{\lambda }_{1}}{{m}_{x}}u=0$ (7)
$\frac{\partial L}{\partial v}={{m}_{y}}_{x}u-{{\lambda }_{2}}{{m}_{y}}v=0$ (8)
以上两个公式分别左乘${{u}^{T}},{{v}^{T}}$再相减, 如公式(9)- 公式(10)所示。
${{m}_{xy}}v-{{\lambda }_{1}}{{m}_{x}}u=0$ (9)
${{m}_{yx}}u-{{\lambda }_{2}}{{m}_{y}}v=0$ (10)
由于λ 1 =λ 2 =λ , 可以求出v 的值, 然后将其带入到公式(8)中求得只含u 的特征方程, 得到${{\lambda }^{2}}{{m}_{y}}v={{m}_{y}}_{x}m_{x}^{-1}{{m}_{xy}}v$。由$(u,v)$表示公式的解, 即两话题间相似度的解系, 得到微博话题与集合中话题语义上的相似度。该方法得到两组特征词语义间的相关系数可以准确反映两组微博话题之间的相关程度, 有效消除处理短文本相似度的漂移问题, 从而进一步增加微博话题聚类研究的精确性。
(3) 话题快速聚类方法
构建微博话题快速聚类模型的主要步骤包括: 利用改进的有序判别分析提取标号有序的情感词, 有序判别分析保证样本中情感词可以有序对应到相应的情感褒贬性集合, 再利用典型相关分析计算微博话题与集合中话题语义上的相似程度, 当相似度计算超过阈值时, 与对应话题合并; 反之, 生成一个新的话题。话题聚类流程如图2 所示, 有效消除了短文本处理相似度时的文本漂移问题。
3.4 情感强度计算
(1) 计算情感词权重
目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题。针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性。笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法。其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确。具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词。情感词属于情感词集合类别的概率如公式(11)所示。
$P({{e}_{i}}|{{d}_{j}})=\frac{count({{e}_{ij}})}{\sum\limits_{i=1}^{k}{count({{e}_{ij}})}}$ (11)
其中, $P({{e}_{i}}|{{d}_{j}})$表示情感词${{e}_{i}}$为情感词集合类别${{d}_{j}}$的概率。$count({{e}_{ij}})$为情感词${{e}_{i}}$在${{d}_{j}}$类别的个数, 则某个随机情感词在训练集${{D}_{training}}$的类别个数之和, 如公式(12)所示。
$class({{e}_{i}})=\sum\limits_{i=1}^{k}{(P({{e}_{i}}|{{d}_{1}}),P({{e}_{i}}|{{d}_{2}}),\cdots ,P({{e}_{i}}|{{d}_{k}}))}$ (12)
对于情感词类别个数之和在训练集${{D}_{training}}$的情感强度定义如公式(13)所示。
$value({{e}_{i}})=\max (P({{e}_{i}}|{{d}_{1}}),P({{e}_{i}}|{{d}_{2}}),\cdots ,P({{e}_{i}}|{{d}_{k}}))$ (13)
情感权重定义如公式(14)所示。
$w({{e}_{i}})=\left\{ \begin{align}& {{e}^{(-1)}}\lambda \times (value({{e}_{i}})+\alpha )\text{ }{{e}_{i}}\in {{D}_{training}} \\& 0.01\text{ }{{e}_{i}}\notin {{D}_{training}} \\ \end{align} \right.$ (14)
其中, $\alpha $为可调节控制参数常量, 参数$\lambda $定义如公式(15)所示。
$\lambda =\left\{ \begin{align} & 0,\text{ }{{n}_{c}}\in {{D}^{c}} \\ & 1,\text{ }{{n}_{c}}\notin {{D}^{c}} \\ \end{align} \right.$ (15)
其中, ${{n}_{c}}$为提取的情感词极性类别, ${{D}^{c}}$为字典中情感极性类别。
(2) 话题情感强度值
话题情感强度为文本情感倾向的综合反映。一篇文档记为T , 所含情感词可看作一个集合, 记为$\{{{p}_{1}},{{p}_{2}},\cdots ,{{p}_{t}}\}$, ${{p}_{i}}(i=1,2,\cdots ,t)$为第i 个情感词。文档情感类别也可以看作为一个集合, 记为$\{{{c}_{1}},{{c}_{2}},\cdots ,{{c}_{k}}\}$, ${{c}_{j}}(j=1,2,\cdots ,k)$为第i 个情感词类别。则T 对于类别${{c}_{j}}$的情感强度如公式(16)所示。
$level({{T}_{cj}})=\sum\limits_{i=1}^{t}{w({{e}_{i}})}\times P({{p}_{i}}|{{c}_{j}})$ (16)
其中, $P({{p}_{i}}|{{c}_{j}})$为情感词集合${{p}_{i}}$为文档情感类别${{c}_{j}}$的概率。输出的标签定义如公式(17)所示。
$label(T)=\max (level({{T}_{{{c}_{1}}}}),level({{T}_{c2}}),\cdots ,({{T}_{ck}}))$ (17)
通过上述方法可以有效模糊某文本特定属性情感值概念, 消除情感强度变化连续性带来的部分误差, 提升文本情感强度分析的准确性, 从而增加本模型公众情感倾向预测的精确度。
3.5 微博话题热点预测
由于微博话题信息具有实时性, 公众的情感倾向也会随时间与事件发展而变化。时间序列分析理论[21 ] 是将某种统计指标数值按照一定时间先后顺序排列形成数列的一种数理统计方法, 它是在相等间隔的时间段内, 依照给定的样本, 实现预测下一时间段或未来可能达到的水平, 因而能有效分析未来时间序列整体变化趋势。目前舆情热点的探测与跟踪实验研究多基于时序回归模型, 如唐晓波等[22 ] 在一元线性回归的基础上, 构造一个情感强度时间序列分析方程以预测公众情感倾向。本文在文献[22 ]的基础上, 根据公式(16)进行如下修改: 假定a 表示时间, $level\text{ (}{{T}_{cj}})$表示话题情感强度, 则逻辑情感强度时序回归方程计算方法如公式(18)所示。
$\ln \text{(}level({{T}_{cj}}))\text{ }=\ln a+\ln LG+u$ (18)
其中, 自变量弹性系数LG 表示每单位时间变化引起的话题情感强度倾向, u 表示随机误差项。该模型对某一时间轴内话题情感强度$level\text{ (}{{T}_{cj}})$使用逻辑时序回归方程得到离散有序数集合, 运用加法模型将时间轴内实际样本值建立模型, 综合考虑趋势项$\ln a$, 周期项$\ln LG$以及误差项u 对话题情感强度的影响, 得出公众情感倾向变化趋势, 即得到体现微博话题随着事件发展和时间变化公众的情感倾向变化趋势模型。
4 实证分析
4.1 实验环境、工具及数据集处理
实验环境为Windows7+Myeclipse 2014+JDK1.7。在Windows操作系统下, 使用Java语言编写程序获取2017年9月23日至10月21日的新浪微博数据, 共计84 330条, 通过预处理筛选保留52 894条。对去噪后的微博文本使用NLPIR汉语分词系统和知网HowNet情感词表分词并进行词性标注。并根据3.2节关联规则的数据挖掘算法得到特征词, 如表1 所示。
4.2 话题聚类结果
实验在CPU主频1.7GHz, 内存620M的PC机上使用Matlab进行编译。根据3.3节方法, 采用有序判别分析对情感词进行标号, 将样本中的情感词有序地对应到相应的情感词强度级别, 组成话题情感词集合, 得到带有标号的情感词及权重, 实验结果如表2 所示。
随后, 采用3.3节典型相关分析算法计算微博话题与话题集合之间的语义距离。热点话题之间的语义距离如表3 所示。
为验证本文提出话题聚类方法的有效性, 利用新浪微指数公众平台对提取出的情感词进行分析, 挖掘出舆情热点话题, 并与本文方法进行对比。微指数可自动挖掘热点关键词并根据关键词进行话题聚类。其数据分析结果如图3 -图7 所示。显示了聚类前的话题整体(移动端和PC端)的情感倾向变化, 横坐标表示时间, 纵坐标表示话题热议指数。
同时进行话题聚类并对话题进行整理, 提取5个热门话题“#四川地震”、“#iphone 8”、“#鹿晗关晓彤”、“#十九大”与“#中国梦”, 如表4 所示。实验结果证明, 本文提出的话题聚类方法与微指数挖掘结果相吻合, 具有较高的话题识别率。
4.3 情感倾向预测及模型有用性效果分析
根据公式(16)和公式(17)以及根据表2 情感词权重计算情感强度(在不考虑可调整参数情况下), 结果如表5 所示。
为了验证本文提出模型的有效性, 通过3.5节构建的时间序列模型对表5 中5个话题情感强度进行回归分析, 可得到5个情感微博话题随着事件发展和时间变化公众的情感倾向变化。实际公众情感变化趋势与预测变化趋势如图8 和图9 所示。
图8 代表2017 年9月23-10月21日实际热点话题情感倾向变化。图9 中时间轴1-6代表2017 年9月23日-10月13日实际情感倾向走向, 时间轴7-8则代表预测2017年10月14-10月21日的情感倾向。将实际结果(图8 )与预测结果(图9 )进行对比, 可以得出以下结论: 4个话题情感变化与实际情感变化数据是一致的, 只有“鹿晗关晓彤”这一个话题有较大的出入, 出现较大程度的激增, 分析其原因主要是该话题引发较高的公众情绪以及内部曝光的一些重要事件导致公众的二次讨论。这表明, 个体情感稳定的情况下, 本文给出的基于话题聚类及情感权值计算的微博舆情分析模型能够得到比较准确的预测情感倾向。
此外, 为了验证本文模型的预测准确性, 实验将本文模型与文献[23 ]讨论的iLab-Edinburgh情感分析模型进行对比, iLab-Edinburgh模型采用监督学习和基于关联规则的方法预测Arabic Tweet 短文本的情感强度得分。首先, 使用线性回归模型对每个给定的文本获取初始情感强度分值; 其次, 使用基于可公开获取的情感词典的一系列规则定义对得到的情感强度值进行调整, 其中, 规则定义整理如下: 获得贬义词阈值设置为[0,0.5], 褒义词阈值设置为[0.5,1], 中性词为+0.4、-0.4上下浮动。实验数据获取自多语言Arabic Twitter人工标注公开数据集。通过使用SVM分类器对除权重(上述规则定义可得)为0以外的9,785个特征词进行划分情感权重。本次实验将本文提出的模型与文献[23 ]中提出模型在不同权值对模型的情感强度影响方面进行比较。不同模型方法取得的权值及情感强度值如图10 所示。
将图10 得到的情感权值使用时间序列法将二者预测结果与实际结果进行对比, 研究模型的预测准确率。如图11 所示, 本文模型预测准确率提高约7%。实验结果证明, 本文在结合有序判别分析和典型相关分析的基础上得到基于权值的情感强度值, 提高预测精准度。
通过对比以上实验结果可以得出如下结论。
(1) 在情感词抽取效用上, 采用有序判别分析将 情感词按照权值大小有序排列, 可以有效解决文献[23 ]机器学习方法SVM抽取的情感词中中性词倾向无法处理的问题, 更好地明确公众情感特征。
(2) 由图10 -图11 可见, 两种方法所获取的情感词权值都能影响预测结果, 但本文模型在预测准确度方面具有较高的性能。原因在于本文提出的情感强度量化计算方法充分考虑情感词极性, 即情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确, 进一步验证了情感强度在情感倾向预测方面所发挥的作用。
(3) 本文提出的模型预测性能要高于文献[23 ]的预测模型, 这就说明本文模型能够有效地反映事件发生过程中公众情感倾向变化, 进而为微博在情感方面的相关情报信息的预测提供参考渠道。
由此可见, 本文提出的微博舆情分析模型表现优于iLab-Edinburgh情感分析模型, 在情感方面的相关情报信息的预测准确性具有较好的效果。
5 结 语
在充分考虑情感词抽取过程中短文本相似度的漂移及情感强度模糊性的问题, 提出一种基于话题聚类及情感强度的微博舆情分析模型, 帮助预测微博话题情感倾向。在确定话题及话题情感强度时采用改进的话题聚类方法及情感强度量化计算方法; 通过时序回归分析对公众舆论导向进行预测; 在公众舆论导向预测准确率方面, 与其他模型对比证明本模型效果。实证结果表明: 基于话题聚类及情感强度的微博舆情分析模型, 有助于提高舆情热点预测准确性; 能够更好地掌握公众舆论倾向, 更好地为商业、政治活动和产品营销或消费行为提供重要的决策依据。
主要有以下创新: 通过有序判别分析以及典型相关分析量化计算话题间的语义相似性, 提升情感词分类精度以对话题进行精准聚类; 大部分情感词的情感强度计算都属于静态研究, 本文使用基于权值的情感强度计算方法计算固定情感强度, 模糊了某文本特定属性情感值概念, 降低了情感强度连续变化带来的部分误差。实验验证了该模型的有效可行性, 为微博舆情分析提供新的途径。
未来工作将从以下方面进行:
(1) 由于本文统计的样本数量有限, 提取出的情感词仅限于用户在线评论, 因而缺乏一定的专业性, 对于情感强度计算结果及情感倾向预测也会造成一定程度的偏差, 下一步将考虑通过合理的利用语言专家标注的情感词词典, 将用户情感词与专家词典进行有效的结合;
(2) 实验数据表明, 当外部有重大事件发生时, 当前话题的情感变化趋向将与之前公众讨论话题情感变化趋向曲线会产生明显的起伏。所以, 将突发事件作为影响因素考虑到情感倾向监控模型中, 以更加有效地预测公众的情感倾向及变化趋势;
(3) 微博用户的情绪比较丰富, 情感词不应只局限于正面、负面以及中性三个方面之间, 应进一步延伸对情感情绪的等级判断。
作者贡献声明
王秀芳: 提出研究思路, 起草论文;
盛姝: 设计研究方案, 撰写论文, 获取数据, 设计实验, 实施研究方案;
路燕: 论文修改及最终版本修订。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储, E-mail: helen0911ss@sina.com。
[1] 王秀芳, 盛姝, 路燕. Data.xlsx. 原始数据(2017年9月23日至10月21日新浪微博数据).
[2] 王秀芳, 盛姝, 路燕. Datacode.docx. 新浪微博数据获取代码.
[3] 王秀芳, 盛姝, 路燕. Data1.rar. Matlab运行算法主程序代码.
参考文献
文献选项
[1]
马晓玲 , 金碧漪 , 范并思 . 中文文本情感倾向分析研究
[J]. 情报资料工作 , 2013 (1 ): 52 -56 .
[本文引用: 1]
(Ma Xiaoling , Jin Biyi , Fan Bingsi .An Analysis of Chinese Text Emotional Tendency
[J]. Information and Documentation Service , 2013 (1 ): 52 -56 .)
[本文引用: 1]
[2]
Vaibhavi N , Patodkar N P , Shaikh I R .Sentimental Analysis on Twitter Data Using Naive Bayes
[C]// Proceedings of the 6th Post Graduate Conference for Computer Engineering. 2017 .
[本文引用: 1]
[3]
唐晓波 , 罗颖利 . 融入情感差异和用户兴趣的微博转发预测
[J]. 图书情报工作 , 2017 , 61 (9 ): 102 -110 .
[本文引用: 1]
(Tang Xiaobo , Luo Yingli .Integrating Emotional Divergence and User Interests into the Prediction of Microblog Retweeting
[J]. Library and Information Service , 2017 , 61 (9 ): 102 -110 .)
[本文引用: 1]
[4]
Ingle M M , Emmanues M .Evaluations on Sentiment Analysis of Micro Blogging Site Using Topic Modeling
[C]// Proceedings of the 2016 International Conference on Signal Processing, Communication, Power and Embedded System. 2016 .
[本文引用: 1]
[5]
Giatsoglou M , Vozalis M G , Diamantaras K , et al .Sentiment Analysis Leveraging Emotions and Word Embeddings
[J]. Expert Systems with Applications , 2017 , 69 : 214 -224 .
https://doi.org/10.1016/j.eswa.2016.10.043
URL
[本文引用: 1]
摘要
Sentiment analysis and opinion mining are valuable for extraction of useful subjective information out of text documents. These tasks have become of great importance, especially for business and marketing professionals, since online posted products and services reviews impact markets and consumers shifts. This work is motivated by the fact that automating retrieval and detection of sentiments expressed for certain products and services embeds complex processes and pose research challenges, due to the textual phenomena and the language specific expression variations. This paper proposes a fast, flexible, generic methodology for sentiment detection out of textual snippets which express people鈥檚 opinions in different languages. The proposed methodology adopts a machine learning approach with which textual documents are represented by vectors and are used for training a polarity classification model. Several documents鈥 vector representation approaches have been studied, including lexicon-based, word embedding-based and hybrid vectorizations. The competence of these feature representations for the sentiment classification task is assessed through experiments on four datasets containing online user reviews in both Greek and English languages, in order to represent high and weak inflection language groups. The proposed methodology requires minimal computational resources, thus, it might have impact in real world scenarios where limited resources is the case.
[6]
韩忠明 , 陈妮 , 乐嘉锦 , 等 . 面向热点话题时间序列的有效聚类算法研究
[J]. 计算机学报 , 2012 , 35 (11 ): 2337 -2347 .
https://doi.org/10.3724/SP.J.1016.2012.02337
URL
[本文引用: 1]
摘要
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在 2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高 时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar 小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作 为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了 大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.
(Han Zhongming , Chen Ni , Le Jiajin , et al .An Efficient and Effective Clustering Algorithm for Time Series of Hot Topics
[J]. Chinese Journal of Computers , 2012 , 35 (11 ): 2337 -2347 .)
https://doi.org/10.3724/SP.J.1016.2012.02337
URL
[本文引用: 1]
摘要
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在 2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高 时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar 小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作 为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了 大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.
[7]
吴青林 , 周天宏 . 基于话题聚类及情感强度的中文微博舆情分析
[J]. 情报理论与实践 , 2016 , 39 (1 ): 109 -112 .
https://doi.org/10.16353/j.cnki.1000-7490.2016.01.019
URL
[本文引用: 1]
摘要
文章通过话题聚类及情感强度分析中文微博舆情,实现对微博热点问题的预测,有利于公众舆情引导。首先充分考虑微博短文本的特点,在特征值提取基础上克服了微博短文本易发生“文本漂移”的缺点,并根据微博高频词对微博进行排序实现微博的快速聚类,接着从主观和客观两方面对热点话题的情感强度进行了分析,基于灰色模型跟踪并预测公众情感变化倾向。实验结果表明,本文提出的基于话题聚类及情感强度的中文微博舆情分析方法具有一定的可行性。
(Wu Qinglin , Zhou Tianhong .Public Opinion Analysis of Chinese Microblog Based on Topic Clustering and Emotion Intensity
[J]. Information Studies: Theory & Application , 2016 , 39 (1 ): 109 -112 .)
https://doi.org/10.16353/j.cnki.1000-7490.2016.01.019
URL
[本文引用: 1]
摘要
文章通过话题聚类及情感强度分析中文微博舆情,实现对微博热点问题的预测,有利于公众舆情引导。首先充分考虑微博短文本的特点,在特征值提取基础上克服了微博短文本易发生“文本漂移”的缺点,并根据微博高频词对微博进行排序实现微博的快速聚类,接着从主观和客观两方面对热点话题的情感强度进行了分析,基于灰色模型跟踪并预测公众情感变化倾向。实验结果表明,本文提出的基于话题聚类及情感强度的中文微博舆情分析方法具有一定的可行性。
[8]
何跃 , 肖敏 , 张月 . 结合话题相关性的热点话题情感倾向研究
[J]. 数据分析与知识发现 , 2017 , 1 (3 ): 46 -53 .
URL
[本文引用: 1]
摘要
【目的】热点话题具有很大的影响力,针对热点话题及其情感对象的情感倾向进行相关研究。【方法】提出一个结合话题相关性的主客观分类模型,帮助抽取与热点话题相关的主观微博;利用基于机器学习改进的情感分类方法对抽取博文的情感极性进行分析;通过召回率、准确率、F值对情感分类效果进行详细评估。【结果】实证分析结果表明,结合话题相关性有效提升了热点话题微博主客观分类和情感极性分类效果,其中F值分别提升7.4%和2.2%。【局限】待需深入考虑数据的分布状态、情感分类粒度细化、情感对象的情感趋势变化等。【结论】考虑话题相关性,提升微博情感分类的效果,并通过抽取热点话题中关键情感对象的情感倾向,为微博精准营销提供相关情报信息。
(He Yue , Xiao Min , Zhang Yue .Sentiment Analysis of Trending Topics Based on Relevance
[J]. Data Analysis and Knowledge Discovery , 2017 , 1 (3 ): 46 -53 .)
URL
[本文引用: 1]
摘要
【目的】热点话题具有很大的影响力,针对热点话题及其情感对象的情感倾向进行相关研究。【方法】提出一个结合话题相关性的主客观分类模型,帮助抽取与热点话题相关的主观微博;利用基于机器学习改进的情感分类方法对抽取博文的情感极性进行分析;通过召回率、准确率、F值对情感分类效果进行详细评估。【结果】实证分析结果表明,结合话题相关性有效提升了热点话题微博主客观分类和情感极性分类效果,其中F值分别提升7.4%和2.2%。【局限】待需深入考虑数据的分布状态、情感分类粒度细化、情感对象的情感趋势变化等。【结论】考虑话题相关性,提升微博情感分类的效果,并通过抽取热点话题中关键情感对象的情感倾向,为微博精准营销提供相关情报信息。
[9]
Sotiropoulos D N , Kounavis C D , Kourouthanassis P , et al .What Drives Social Sentiment? An Entropic Measure-based Clustering Approach Towards Identifying Factors that Influence Social Sentiment Polarity
[C]// Proceedings of the 5th International Conference on Information, Intelligence, Systems and Applications. 2014 .
[本文引用: 1]
[10]
Manek A S , Shenoy P D , Mohan M C , et al .Aspect Term Extraction for Sentiment Analysis in Large Movie Reviews Using Gini Index Feature Selection Method and SVM Classifier
[J]. World Wide Web , 2017 , 20 (2 ): 135 -154 .
https://doi.org/10.1007/s11280-015-0381-x
URL
[本文引用: 1]
摘要
With the rapid development of the World Wide Web, electronic word-of-mouth interaction has made consumers active participants. Nowadays, a large number of reviews posted by the consumers on the Web provide valuable information to other consumers. Such information is highly essential for decision making and hence popular among the internet users. This information is very valuable not only for prospective consumers to make decisions but also for businesses in predicting the success and sustainability. In this paper, a Gini Index based feature selection method with Support Vector Machine (SVM) classifier is proposed for sentiment classification for large movie review data set. The results show that our Gini Index method has better classification performance in terms of reduced error rate and accuracy.
[11]
李慧 , 柴亚青 . 基于属性特征的评论文本情感极性量化分析
[J]. 数据分析与知识发现 , 2017 , 1 (10 ): 1 -11 .
[本文引用: 1]
(Li Hui , Chai Yaqing .Analysis Sentiment Polarity of Comments Based on Attributes
[J]. Data Analysis and Knowledge Discovery , 2017 , 1 (10 ): 1 -11 .)
[本文引用: 1]
[12]
Meisheri H , Saha R , Sinha P , et al .Textmining at EmoInt-2017: A Deep Learning Approach to Sentiment Intensity Scoring of English Tweets
[C]//Proceedings of the 8th Workshop on Computational Approaches to Subjectivity, Copenhagen, Denmark. 2017 .
[本文引用: 1]
[13]
郑丽娟 , 王洪伟 , 郭恺强 . 基于情感词模糊统计的网络评论情感强度的研究
[J]. 系统管理学报 , 2014 , 23 (3 ): 324 -330 .
URL
[本文引用: 1]
摘要
根据已有在线声誉系统特点,将用户的情感强度划分若干级别.考虑到情感强度的模糊性,为每个情感强度设置隶属度函数.在此基础上,提出一种基于情感词模糊统计的网络评论情感强度计算方法,并选取手机评论进行实验分析.实验结果显示:情感词的隶属度具有集中性和稳定性;否定词不但改变情感词的极性,还弱化情感词的情感强度;程度副词强化情感词的情感强度,但被修饰情感词的情感强度越大,程度副词对该词的强化程度越小.
(Zheng Lijuan , Wang Hongwei , Guo Kaiqiang .Sentiment Intensity of Online Reviews Based on Fuzzy-Statistics of Sentiment Words
[J]. Journal of Systems & Management , 2014 , 23 (3 ): 324 -330 .)
URL
[本文引用: 1]
摘要
根据已有在线声誉系统特点,将用户的情感强度划分若干级别.考虑到情感强度的模糊性,为每个情感强度设置隶属度函数.在此基础上,提出一种基于情感词模糊统计的网络评论情感强度计算方法,并选取手机评论进行实验分析.实验结果显示:情感词的隶属度具有集中性和稳定性;否定词不但改变情感词的极性,还弱化情感词的情感强度;程度副词强化情感词的情感强度,但被修饰情感词的情感强度越大,程度副词对该词的强化程度越小.
[14]
Pérez-Ortiz M , Gutiérrez P A , Carbonero-Ruz M , et al .Semi-supervised Learning for Ordinal Kernel Discriminant Analysis
[J]. Neural Networks , 2016 , 84 : 57 -66 .
https://doi.org/10.1016/j.neunet.2016.08.004
URL
PMID: 27639724
[本文引用: 1]
摘要
Ordinal classification considers those classification problems where the labels of the variable to predict follow a given order. Naturally, labelled data is scarce or difficult to obtain in this type of problems because, in many cases, ordinal labels are given by a user or expert (e.g. in recommendation systems). Firstly, this paper develops a new strategy for ordinal classification where both labelled and unlabelled data are used in the model construction step (a scheme which is referred to as semi-supervised learning). More specifically, the ordinal version of kernel discriminant learning is extended for this setting considering the neighbourhood information of unlabelled data, which is proposed to be computed in the feature space induced by the kernel function. Secondly, a new method for semi-supervised kernel learning is devised in the context of ordinal classification, which is combined with our developed classification strategy to optimise the kernel parameters. The experiments conducted compare 6 different approaches for semi-supervised learning in the context of ordinal classification in a battery of 30 datasets, showing (1) the good synergy of the ordinal version of discriminant analysis and the use of unlabelled data and (2) the advantage of computing distances in the feature space induced by the kernel function.
[15]
周航星 , 陈松灿 . 有序判别典型相关分析
[J]. 软件学报 , 2014 , 25 (9 ): 2018 -2025 .
https://doi.org/10.13328/j.cnki.jos.004649
URL
[本文引用: 1]
摘要
多视图学习方法通过视图间互补信息的融合,达到增强单一视图方法的鲁棒性并提升学习性能的目的。典型相关分析(canonical correlation analysis,简称CCA)是一种重要的多视图信息融合技术。其研究的是针对同一组目标两组不同观测数据间的相关性,目标是得到一组相关性最大的投影向量。但当面对标号有序的分类任务时,CCA因没有利用类信息和类间有序信息,造成了对分类性能的制约。为此,通过将有序类信息嵌入 CCA 进行扩展,发展出有序判别典型相关分析(ordinal discriminative canonical correlation analysis,简称 OR-DisCCA)。实验结果表明, OR-DisCCA的性能比相关方法更优。
(Zhou Hangxing , Chen Songcan .Ordinal Discriminative Canonical Correlation Analysis
[J]. Journal of Software , 2014 , 25 (9 ): 2018 -2025 .)
https://doi.org/10.13328/j.cnki.jos.004649
URL
[本文引用: 1]
摘要
多视图学习方法通过视图间互补信息的融合,达到增强单一视图方法的鲁棒性并提升学习性能的目的。典型相关分析(canonical correlation analysis,简称CCA)是一种重要的多视图信息融合技术。其研究的是针对同一组目标两组不同观测数据间的相关性,目标是得到一组相关性最大的投影向量。但当面对标号有序的分类任务时,CCA因没有利用类信息和类间有序信息,造成了对分类性能的制约。为此,通过将有序类信息嵌入 CCA 进行扩展,发展出有序判别典型相关分析(ordinal discriminative canonical correlation analysis,简称 OR-DisCCA)。实验结果表明, OR-DisCCA的性能比相关方法更优。
[16]
Hotelling H .Relations Between 2 Sets of Variants
[J]. Biometrika , 1935 , 28 (3-4 ): 312 -377 .
https://doi.org/10.2307/2333955
URL
[本文引用: 2]
摘要
Publication » Relations between two sets of variants.
[17]
Yoshida K , Yoshimoto J , Doya K .Sparse Kernel Canonical Correlation Analysis for Discovery of Nonlinear Interactions in High-dimensional Data
[J]. BMC Bioinformatics , 2017 , 18 (1 ): 108 -118 .
https://doi.org/10.1186/s12859-017-1543-x
URL
PMID: 28196464
[本文引用: 1]
摘要
Advance in high-throughput technologies in genomics, transcriptomics, and metabolomics has created demand for bioinformatics tools to integrate high-dimensional data from different sources. Canonical correlation analysis (CCA) is a statistical tool for finding linear associations between different types of information. Previous extensions of CCA used to capture nonlinear associations, such as kernel CCA, did not allow feature selection or capturing of multiple canonical components. Here we propose a novel method, two-stage kernel CCA (TSKCCA) to select appropriate kernels in the framework of multiple kernel learning. TSKCCA first selects relevant kernels based on the HSIC criterion in the multiple kernel learning framework. Weights are then derived by non-negative matrix decomposition with L1 regularization. Using artificial datasets and nutrigenomic datasets, we show that TSKCCA can extract multiple, nonlinear associations among high-dimensional data and multiplicative interactions among variables. TSKCCA can identify nonlinear associations among high-dimensional data more reliably than previous nonlinear CCA methods.
[18]
钟敏娟 , 万常选 , 刘德喜 . 基于关联规则挖掘和极性分析的商品评论情感词典构建
[J]. 情报学报 , 2016 , 35 (5 ): 501 -509 .
[本文引用: 1]
(Zhong Minjuan , Wan Changxuan , Liu Dexi .Opinion Lexicon Construction Based on Association Rule and Orientation Analysis for Production Review
[J]. Journal of the China Society for Scientific and Technical Information , 2016 , 35 (5 ): 501 -509 .)
[本文引用: 1]
[19]
刘德喜 . 情感词扩展对微博情感分类性能影响的实验分析
[J]. 小型微型计算机系统 , 2016 , 37 (5 ): 957 -965 .
URL
Magsci
[本文引用: 1]
摘要
微博情感分类是典型的情感分析任务之一,而情感词是很多情感分析方法的基础.由于手工情感词典的局限性,情感词的自动扩展经常作为情感分析的重要步骤,而情感词扩展方法的好坏也经常用情感分类等任务来间接评测.在中、英文两个语种的微博数据集上进行对比实验,详细地分析了通过典型的情感词扩展方法抽取的新情感词对微博主观性分类和倾向性分类的影响.实验中对比了中、英文两种语种、不同的情感词扩展方法、不同的情感强度计算方法、不同的微博情感分类方法、不同的候选情感词词性、不同的种子情感词典、以及不同的微博情感分类测试集,透过多个视角,观察和分析情感词扩展在微博情感分类中作用,为相关研究工作提供参照或证据.
(Liu Dexi .Effect of Sentimental Word Expansion on the Performance of Microblog Sentiment Classification Task
[J]. Journal of Chinese Computer Systems , 2016 , 37 (5 ): 957 -965 .)
URL
Magsci
[本文引用: 1]
摘要
微博情感分类是典型的情感分析任务之一,而情感词是很多情感分析方法的基础.由于手工情感词典的局限性,情感词的自动扩展经常作为情感分析的重要步骤,而情感词扩展方法的好坏也经常用情感分类等任务来间接评测.在中、英文两个语种的微博数据集上进行对比实验,详细地分析了通过典型的情感词扩展方法抽取的新情感词对微博主观性分类和倾向性分类的影响.实验中对比了中、英文两种语种、不同的情感词扩展方法、不同的情感强度计算方法、不同的微博情感分类方法、不同的候选情感词词性、不同的种子情感词典、以及不同的微博情感分类测试集,透过多个视角,观察和分析情感词扩展在微博情感分类中作用,为相关研究工作提供参照或证据.
[20]
阳林 . 情感词权值研究及在情感极性分析中的应用
[J]. 计算机应用 , 2015 , 35 (S2 ): 125 -127 .
[本文引用: 1]
(Yang Lin .Emotional Term Weight Research and Application to Emotional Polarity Analysis
[J]. Journal of Computer Applications , 2015 , 35 (S2 ): 125 -127 .)
[本文引用: 1]
[21]
Van Arthur G , Staals F , Löffler M , et al .Multi-Granular Trend Detection for Time-Series Analysis
[J]. IEEE Transactions on Visualization and Computer Graphics , 2017 , 23 (1 ): 661 -670 .
https://doi.org/10.1109/TVCG.2016.2598619
URL
[本文引用: 1]
[22]
唐晓波 , 童海燕 , 严承希 . 基于话题情感强度的微博舆情分析
[J]. 图书馆学研究 , 2014 (17 ): 85 -93 .
[本文引用: 2]
(Tang Xiaobo , Tong Haiyan , Yan Chengxi .Microblogging Public Opinion Analysis Based on Emotional Intensity of the Topic
[J]. Research on Libray Science , 2014 (17 ): 85 -93 .)
[本文引用: 2]
[23]
Refaee E , Rieser V. iLab-Edinburgh at SemEval-2016 Task 7: A Hybrid Approach for Determining Sentiment Intensity of Arabic Twitter Phrases
[C]// Proceedings of the 10th International Workshop on Semantic Evaluation. 2016 .
[本文引用: 4]
中文文本情感倾向分析研究
1
2013
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
中文文本情感倾向分析研究
1
2013
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
Sentimental Analysis on Twitter Data Using Naive Bayes
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
融入情感差异和用户兴趣的微博转发预测
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
融入情感差异和用户兴趣的微博转发预测
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
Evaluations on Sentiment Analysis of Micro Blogging Site Using Topic Modeling
1
2016
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
Sentiment Analysis Leveraging Emotions and Word Embeddings
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
面向热点话题时间序列的有效聚类算法研究
1
2012
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
面向热点话题时间序列的有效聚类算法研究
1
2012
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
基于话题聚类及情感强度的中文微博舆情分析
1
2016
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
基于话题聚类及情感强度的中文微博舆情分析
1
2016
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
结合话题相关性的热点话题情感倾向研究
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
结合话题相关性的热点话题情感倾向研究
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
What Drives Social Sentiment? An Entropic Measure-based Clustering Approach Towards Identifying Factors that Influence Social Sentiment Polarity
1
2014
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
Aspect Term Extraction for Sentiment Analysis in Large Movie Reviews Using Gini Index Feature Selection Method and SVM Classifier
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
基于属性特征的评论文本情感极性量化分析
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
基于属性特征的评论文本情感极性量化分析
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
Textmining at EmoInt-2017: A Deep Learning Approach to Sentiment Intensity Scoring of English Tweets
1
2017
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
基于情感词模糊统计的网络评论情感强度的研究
1
2014
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
基于情感词模糊统计的网络评论情感强度的研究
1
2014
... 综合当前情感分析领域研究成果可以归纳为三个部分[1 ] : 情感词的抽取与标注研究、话题聚类以及情感强度分析研究.在情感分析技术中, 情感词的抽取与标注是情感分析技术的基础.目前国内外最常用的研究方式多基于机器学习的方法.如, Vaibhavi等[2 ] 解决情感词典的领域无关性对情感表达的影响, 将情感词分为褒性和贬性, 通过贝叶斯模型对不同文本中非人工标注的情感词进行分类训练.文献[3 ]基于维基百科知识库概念页面间的内部链接对情感词进行抽取, 利用TF-IDF算法提取关键词.相关研究大都使用计算候选词及已知情感词的相似性提取情感词, 虽然这种方法不需要语义词典及语法分析, 但是易造成短文本相似度漂移问题, 且未能考虑评论文本的长尾现象, 候选词可能出现次数较少而造成标注偏差.中文微博舆情分析的另一关键技术是话题聚类.Ingle等[4 ] 利用三层贝叶斯概率模型(Latent Dirichlet Allocation, LDA)获取已发生话题以过滤新的潜在热点话题.Giatsoglou等[5 ] 将获取的文本数据用矢量表示, 通过监督学习分析训练数据, 构建一个情感极性分类模型以对话题进行情感分类.文献[6 ]在面向话题时间序列的K_SC(K-Spectral Centroid)聚类算法的基础上, 结合小波变换技术, 提出一个新的迭代式聚类算法WKSC, 改变初始聚类中心提高了话题聚类的效果.吴青林等[7 ] 提出一种改进的单遍聚类算法, 根据微博高频词对微博进行排序以实现微博话题的快速聚类.文献[8 ]提出一种结合话题相关性的主客观模型, 将问题分解成是否主观以及是否相关两个并行子问题, 然后利用逻辑回归生成新的话题.Sotiropoulos等[9 ] 提出一种话题概率模型, 首先构造一个包含话题的话题集合, 将每个话题集合视为一个概率值, 通过LDA模型对话题进行聚类.当前微博话题聚类方法一般采用层次化学习和预定义的本体树.但利用单遍聚类的方法虽然能缩短文本处理时间, 但也会丢失情感词本身含有的大量信息.情感强度分析是情感分析的子任务, 它对评论的褒贬情感的强弱进行分析.Manek等[10 ] 构造一个特殊的吉尼系数计算情感词权重、划分情感词等级, 并通过支持向量机(Support Vector Machine, SVM)对情感词进行分类以提高情感分析的准确性.文献[11 ]采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)权值计算方法, 引入属性因子, 设计基于属性特征的情感极性量化算法.Meisheri等[12 ] 构造一个平行架构, 使用卷积神经网络(Convolution Neural Network)与长短期记忆网络(Long Short-Term Memory)提取评分为0或1的正、负及非情感词, 将其分为4个集合, 在特征映射层映射每个情感集合评分, 输出最终情感强度.文献[13 ]采用情感词模糊统计的网络评论方法, 即划分情感强度级别对情感词进行分类, 计算各强度级别中情感词隶属度确定情感强度.上述方法虽然大都考虑情感强度的模糊性构建模型, 但研究基于划分情感强度级别进行情感词分类, 情感强度级别大都设定为固定值, 对于情感词权值计算都属于静态研究, 影响后续情感倾向预测准确性. ...
Semi-supervised Learning for Ordinal Kernel Discriminant Analysis
1
2016
... 有序判别分析[14 ] 是根据时间序列多元数据判断指标所属类别的一种多元统计分析方法, 目的是自动判别固定离散样本的类别.在周航星等[15 ] 提出的有序判别分析的基础上进行如下修改: 针对不同情感词的情感强度不能形成区分度这一问题提出一种划分情感强度级别的方法判别情感词的极性, 情感褒贬性集合分别为负面(高、中、低)、正面(高、中、低)及中性.例如, 在一个5星产品服务评分系统中, 消费者给定特定的评分, 分值越高, 表明其产品服务综合质量越高, 其对应的消费者情感强度级别越高, 情感词褒义性也就越强.划分这些具体情感词极性可以对应到相应的有序标号, 消费者评价一份产品服务的属性最终决定该产品服务的等级(标号), 也意味着标号提供有序信息.这就保证计算得到的情感词的有序性.其主要思路是计算情感褒贬集合中的情感词与情感极性标号之间距离最小.本文分析方法在保证各样本数据相关性的前提下, 使得不同类别的数据尽可能分开, 还能将数据按照一定的顺序排列.具体方法实现如下. ...
有序判别典型相关分析
1
2014
... 有序判别分析[14 ] 是根据时间序列多元数据判断指标所属类别的一种多元统计分析方法, 目的是自动判别固定离散样本的类别.在周航星等[15 ] 提出的有序判别分析的基础上进行如下修改: 针对不同情感词的情感强度不能形成区分度这一问题提出一种划分情感强度级别的方法判别情感词的极性, 情感褒贬性集合分别为负面(高、中、低)、正面(高、中、低)及中性.例如, 在一个5星产品服务评分系统中, 消费者给定特定的评分, 分值越高, 表明其产品服务综合质量越高, 其对应的消费者情感强度级别越高, 情感词褒义性也就越强.划分这些具体情感词极性可以对应到相应的有序标号, 消费者评价一份产品服务的属性最终决定该产品服务的等级(标号), 也意味着标号提供有序信息.这就保证计算得到的情感词的有序性.其主要思路是计算情感褒贬集合中的情感词与情感极性标号之间距离最小.本文分析方法在保证各样本数据相关性的前提下, 使得不同类别的数据尽可能分开, 还能将数据按照一定的顺序排列.具体方法实现如下. ...
有序判别典型相关分析
1
2014
... 有序判别分析[14 ] 是根据时间序列多元数据判断指标所属类别的一种多元统计分析方法, 目的是自动判别固定离散样本的类别.在周航星等[15 ] 提出的有序判别分析的基础上进行如下修改: 针对不同情感词的情感强度不能形成区分度这一问题提出一种划分情感强度级别的方法判别情感词的极性, 情感褒贬性集合分别为负面(高、中、低)、正面(高、中、低)及中性.例如, 在一个5星产品服务评分系统中, 消费者给定特定的评分, 分值越高, 表明其产品服务综合质量越高, 其对应的消费者情感强度级别越高, 情感词褒义性也就越强.划分这些具体情感词极性可以对应到相应的有序标号, 消费者评价一份产品服务的属性最终决定该产品服务的等级(标号), 也意味着标号提供有序信息.这就保证计算得到的情感词的有序性.其主要思路是计算情感褒贬集合中的情感词与情感极性标号之间距离最小.本文分析方法在保证各样本数据相关性的前提下, 使得不同类别的数据尽可能分开, 还能将数据按照一定的顺序排列.具体方法实现如下. ...
Relations Between 2 Sets of Variants
2
1935
... 典型相关分析[16 ] 是Hotelling于1936年提出的一种多元分析方法, 主要目的是最大化两组变量之间的关系考察整体之间的相关性.在基于话题聚类与情感强度的中文舆情分析模型中, 使用典型相关分析(CCA)找到两个微博话题在语义上的相似度, 主要思路是利用微博话题与集合中话题两组变量所抽取的特征词之间的相关系数描述两组变量整体的相关关系.因此, 通过典型相关分析得到的两组特征词语义间的相关系数的大小可以准确反映两组微博话题之间的相关程度的大小.设微博话题集合$D=\{({{x}_{n}},{{y}_{n}})\}_{n=1}^{N}$, N 为话题数量, ${{x}_{n}}$与${{y}_{n}}$分别表示微博话题与话题集合.令${{f}_{u}}(x)\equiv {{u}^{T}}x$以及${{g}_{v}}(y)\equiv {{v}^{T}}y$分别表示微博话题${{x}_{n}}$与话题集合${{y}_{n}}$相对应的维值.典型相关分析的目标是使得微博话题${{F}_{u}}\equiv \{{{f}_{u}}({{x}_{n}})\}_{n=1}^{N}$与话题集合${{G}_{v}}\equiv \{{{g}_{v}}(y{}_{_{n}})\}_{n=1}^{N}$之间的皮尔森相关系数(Pearson)最大, 即二者语义上的相似度越大, 则归类为话题集合中已存在话题, 反之, 则独立成为一个话题.话题间语义相似度计 算[16 ,17 ] 如公式(5)所示. ...
... [16 ,17 ]如公式(5)所示. ...
Sparse Kernel Canonical Correlation Analysis for Discovery of Nonlinear Interactions in High-dimensional Data
1
2017
... 典型相关分析[16 ] 是Hotelling于1936年提出的一种多元分析方法, 主要目的是最大化两组变量之间的关系考察整体之间的相关性.在基于话题聚类与情感强度的中文舆情分析模型中, 使用典型相关分析(CCA)找到两个微博话题在语义上的相似度, 主要思路是利用微博话题与集合中话题两组变量所抽取的特征词之间的相关系数描述两组变量整体的相关关系.因此, 通过典型相关分析得到的两组特征词语义间的相关系数的大小可以准确反映两组微博话题之间的相关程度的大小.设微博话题集合$D=\{({{x}_{n}},{{y}_{n}})\}_{n=1}^{N}$, N 为话题数量, ${{x}_{n}}$与${{y}_{n}}$分别表示微博话题与话题集合.令${{f}_{u}}(x)\equiv {{u}^{T}}x$以及${{g}_{v}}(y)\equiv {{v}^{T}}y$分别表示微博话题${{x}_{n}}$与话题集合${{y}_{n}}$相对应的维值.典型相关分析的目标是使得微博话题${{F}_{u}}\equiv \{{{f}_{u}}({{x}_{n}})\}_{n=1}^{N}$与话题集合${{G}_{v}}\equiv \{{{g}_{v}}(y{}_{_{n}})\}_{n=1}^{N}$之间的皮尔森相关系数(Pearson)最大, 即二者语义上的相似度越大, 则归类为话题集合中已存在话题, 反之, 则独立成为一个话题.话题间语义相似度计 算[16 ,17 ] 如公式(5)所示. ...
基于关联规则挖掘和极性分析的商品评论情感词典构建
1
2016
... 目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题.针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性.笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法.其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确.具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词.情感词属于情感词集合类别的概率如公式(11)所示. ...
基于关联规则挖掘和极性分析的商品评论情感词典构建
1
2016
... 目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题.针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性.笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法.其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确.具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词.情感词属于情感词集合类别的概率如公式(11)所示. ...
情感词扩展对微博情感分类性能影响的实验分析
1
2016
... 目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题.针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性.笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法.其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确.具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词.情感词属于情感词集合类别的概率如公式(11)所示. ...
情感词扩展对微博情感分类性能影响的实验分析
1
2016
... 目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题.针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性.笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法.其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确.具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词.情感词属于情感词集合类别的概率如公式(11)所示. ...
情感词权值研究及在情感极性分析中的应用
1
2015
... 目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题.针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性.笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法.其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确.具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词.情感词属于情感词集合类别的概率如公式(11)所示. ...
情感词权值研究及在情感极性分析中的应用
1
2015
... 目前探究情感词权值在情感极性分析中的应用多基于通用情感词典进行研究, 大部分基于情感词的情感强度计算都是一个静态研究, 情感词权值大都设定为固定值, 如将情感词分为褒贬性等强度级别计算文本情感强度的问题.针对上述问题, 钟敏娟等[18 ] 、刘德喜等[19 ] 构建基于关联规则挖掘与极性分析的情感词典, 采用PageRank模型构建情感词的量化图模型, 获得每个情感词的极性.笔者基于阳林[20 ] 研究的基础上做出如下修改: 引入情感权值定义, 即在情感词权重的基础上, 设计一个情感极性量化算法.其主要思想是构造一个情感权重计算公式, 情感词权值越大, 情感确定性越大, 其情感词情感倾向也越明确.具体方法如下: 假定训练样本集为${{D}_{training}}=\{D,E\}$, 情感词类别集合为$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{m}}\}$, ${{d}_{j}}(j=1,2,\cdots ,m)$为第j 类情感词类别集合; 同理, 情感词集合为$E=\{{{e}_{1}},{{e}_{2}},\cdots ,{{e}_{k}}\}$, ${{e}_{i}}=(i=1,2,\cdots ,k)$为第i 个情感词.情感词属于情感词集合类别的概率如公式(11)所示. ...
Multi-Granular Trend Detection for Time-Series Analysis
1
2017
... 由于微博话题信息具有实时性, 公众的情感倾向也会随时间与事件发展而变化.时间序列分析理论[21 ] 是将某种统计指标数值按照一定时间先后顺序排列形成数列的一种数理统计方法, 它是在相等间隔的时间段内, 依照给定的样本, 实现预测下一时间段或未来可能达到的水平, 因而能有效分析未来时间序列整体变化趋势.目前舆情热点的探测与跟踪实验研究多基于时序回归模型, 如唐晓波等[22 ] 在一元线性回归的基础上, 构造一个情感强度时间序列分析方程以预测公众情感倾向.本文在文献[22 ]的基础上, 根据公式(16)进行如下修改: 假定a 表示时间, $level\text{ (}{{T}_{cj}})$表示话题情感强度, 则逻辑情感强度时序回归方程计算方法如公式(18)所示. ...
基于话题情感强度的微博舆情分析
2
2014
... 由于微博话题信息具有实时性, 公众的情感倾向也会随时间与事件发展而变化.时间序列分析理论[21 ] 是将某种统计指标数值按照一定时间先后顺序排列形成数列的一种数理统计方法, 它是在相等间隔的时间段内, 依照给定的样本, 实现预测下一时间段或未来可能达到的水平, 因而能有效分析未来时间序列整体变化趋势.目前舆情热点的探测与跟踪实验研究多基于时序回归模型, 如唐晓波等[22 ] 在一元线性回归的基础上, 构造一个情感强度时间序列分析方程以预测公众情感倾向.本文在文献[22 ]的基础上, 根据公式(16)进行如下修改: 假定a 表示时间, $level\text{ (}{{T}_{cj}})$表示话题情感强度, 则逻辑情感强度时序回归方程计算方法如公式(18)所示. ...
... 在一元线性回归的基础上, 构造一个情感强度时间序列分析方程以预测公众情感倾向.本文在文献[22 ]的基础上, 根据公式(16)进行如下修改: 假定a 表示时间, $level\text{ (}{{T}_{cj}})$表示话题情感强度, 则逻辑情感强度时序回归方程计算方法如公式(18)所示. ...
基于话题情感强度的微博舆情分析
2
2014
... 由于微博话题信息具有实时性, 公众的情感倾向也会随时间与事件发展而变化.时间序列分析理论[21 ] 是将某种统计指标数值按照一定时间先后顺序排列形成数列的一种数理统计方法, 它是在相等间隔的时间段内, 依照给定的样本, 实现预测下一时间段或未来可能达到的水平, 因而能有效分析未来时间序列整体变化趋势.目前舆情热点的探测与跟踪实验研究多基于时序回归模型, 如唐晓波等[22 ] 在一元线性回归的基础上, 构造一个情感强度时间序列分析方程以预测公众情感倾向.本文在文献[22 ]的基础上, 根据公式(16)进行如下修改: 假定a 表示时间, $level\text{ (}{{T}_{cj}})$表示话题情感强度, 则逻辑情感强度时序回归方程计算方法如公式(18)所示. ...
... 在一元线性回归的基础上, 构造一个情感强度时间序列分析方程以预测公众情感倾向.本文在文献[22 ]的基础上, 根据公式(16)进行如下修改: 假定a 表示时间, $level\text{ (}{{T}_{cj}})$表示话题情感强度, 则逻辑情感强度时序回归方程计算方法如公式(18)所示. ...
Rieser V. iLab-Edinburgh at SemEval-2016 Task 7: A Hybrid Approach for Determining Sentiment Intensity of Arabic Twitter Phrases
4
2016
... 此外, 为了验证本文模型的预测准确性, 实验将本文模型与文献[23 ]讨论的iLab-Edinburgh情感分析模型进行对比, iLab-Edinburgh模型采用监督学习和基于关联规则的方法预测Arabic Tweet 短文本的情感强度得分.首先, 使用线性回归模型对每个给定的文本获取初始情感强度分值; 其次, 使用基于可公开获取的情感词典的一系列规则定义对得到的情感强度值进行调整, 其中, 规则定义整理如下: 获得贬义词阈值设置为[0,0.5], 褒义词阈值设置为[0.5,1], 中性词为+0.4、-0.4上下浮动.实验数据获取自多语言Arabic Twitter人工标注公开数据集.通过使用SVM分类器对除权重(上述规则定义可得)为0以外的9,785个特征词进行划分情感权重.本次实验将本文提出的模型与文献[23 ]中提出模型在不同权值对模型的情感强度影响方面进行比较.不同模型方法取得的权值及情感强度值如图10 所示. ...
... ]讨论的iLab-Edinburgh情感分析模型进行对比, iLab-Edinburgh模型采用监督学习和基于关联规则的方法预测Arabic Tweet 短文本的情感强度得分.首先, 使用线性回归模型对每个给定的文本获取初始情感强度分值; 其次, 使用基于可公开获取的情感词典的一系列规则定义对得到的情感强度值进行调整, 其中, 规则定义整理如下: 获得贬义词阈值设置为[0,0.5], 褒义词阈值设置为[0.5,1], 中性词为+0.4、-0.4上下浮动.实验数据获取自多语言Arabic Twitter人工标注公开数据集.通过使用SVM分类器对除权重(上述规则定义可得)为0以外的9,785个特征词进行划分情感权重.本次实验将本文提出的模型与文献[23 ]中提出模型在不同权值对模型的情感强度影响方面进行比较.不同模型方法取得的权值及情感强度值如图10 所示. ...
... (1) 在情感词抽取效用上, 采用有序判别分析将 情感词按照权值大小有序排列, 可以有效解决文献[23 ]机器学习方法SVM抽取的情感词中中性词倾向无法处理的问题, 更好地明确公众情感特征. ...
... (3) 本文提出的模型预测性能要高于文献[23 ]的预测模型, 这就说明本文模型能够有效地反映事件发生过程中公众情感倾向变化, 进而为微博在情感方面的相关情报信息的预测提供参考渠道. ...