基于深度信念网络的文本情感分类研究

张庆庆¹^,, 贺兴时², 王慧敏², 蒙胜军³

¹西安工程大学管理学院西安 710048

²西安工程大学理学院西安 710048

³西安交通大学新闻与新媒体学院西安 710049

Zhang Qingqing¹^,, He Xingshi², Wang Huimin², Meng Shengjun³

¹School of Management, Xi’an Polytechnic University, Xi’an 710048, China

²School of Science, Xi’an Polytechnic University, Xi’an 710048, China

³School of Journalism and New Media, Xi’an Jiaotong University, Xi’an 710049, China

通讯作者: 张庆庆, ORCID: 0000-0002-5507-466X, E-mail: suiyue2959@163.com。

基金资助: *本文系教育部人文社会科学青年基金项目“社会媒体网络社群对城市弱势群体公共事务参与的影响研究”(项目编号: 18YJC860025)、西安工程大学博士科研启动金“基于深度学习的中文文本情感分类研究”(项目编号: 107020309)和2019年陕西省教育厅科研计划专项项目“基于深度学习的情感分类研究”的研究成果之一;

中图分类号: TP391.1 G35

摘要:

【目的】将深度信念网络应用于中文文本情感分类, 系统研究深度信念网络在文本情感分类任务中的参数选择与性能分析。【方法】以中文电子商务网站评论数据为研究对象, 提取一元词、二元词、词性、简单依存关系、情感得分和三元组依存关系特征作为深度信念网络的输入, 通过设置不同网络深度、不同输入维数的网络结构计算分类准确率。【结果】实验结果表明, 三元组依存关系特征作为深度信念网络的输入分类效果更好, 而网络层数对分类准确率的影响不大。【局限】尚未在其他深度学习模型上进行实验验证。【结论】深度学习在文本情感分类任务中性能良好, 验证了深度学习对复杂任务有很强的学习能力, 但其模型选择和参数设置尚需要进一步的研究。

关键词: 深度信念网络 ; 文本情感分类 ; 参数选择

Abstract:

[Objective] This paper focused on Chinese text sentiment classification based on deep belief network, especially the parameter selection and performance analysis of the network. [Methods] Chinese e-commercial reviews are as the object of the study, the unigram, bigram, POS, simple dependency label, sentiment score and triple dependency features are extracted and used as the input of deep belief network by setting different layers and different input numbers to compute the accuracy of sentiment classification. [Results] The results demonstrate that the triple dependency features as the input got better classification performance than the other features, but the number of hidden layers doesn’t have an effect on the classification accuracy. [Limitations] The methods aren’t conducted and verified on other deep learning models. [Conclusions] Deep learning has a good performance for sentiment analysis, but how to set up parameters still need to be further considered.

Key words: Deep Belief Network ; Text Sentiment Classification ; Parameter Selection

1 引言

随着互联网的普及, 网络内容的数量以前所未有的速度增长, 而表达看法、意见、建议等的主观性文本, 如科技评论、产品评论、体育评论、时事评论、影视评论、新闻评论、军事评论、音乐评论、股票评论等也大量出现。这些主观信息是针对特定对象而发表的观点、态度、意见、立场等, 有强烈的个人情感色彩。文本情感分类是针对主观性文本进行自动分析和处理归纳的技术。通过该技术可以发现消费者对于产品的喜好、监管人们的情感变化或舆论趋势, 辅助消费者进行购买决策、为生产商改善商品提供依据、辅助政府进行舆情监管等。

文本情感分类技术是对非结构化文本数据进行处理的过程, 对句子语义的理解有较高要求。鉴于深度学习有很强的特征学习能力, 本文将深度信念网络(Deep Belief Network, DBN)应用于文本情感分类任务中, 研究深度信念网络在文本情感分类中的作用。提取一元词、二元词、词性、简单依存关系、情感得分和三元组依存关系特征及其组合特征作为深度信念网络的输入, 采用中文电子商务网站评论数据作为研究对象, 对不同特征输入、不同网络结构情况下的深度信念网络分类性能进行分析。

2 研究现状

目前用于文本情感分类研究的主流方法是机器学习, 主要针对文本情感分类任务的特征表示和分类模型。用于文本表示的特征类别有一元词(Unigram)、多元词(N-Grams)、词性(Part-of-Speech, POS)、词的关系特征、基于规则的特征、结合情感词典的特征、社交网络特征和表示词语间修饰关系的依存句法关系特征等^[1,2,3]。

在分类模型方面, 传统分类模型如支持向量机、朴素贝叶斯、最大熵模型等也取得了不错效果, 但仅针对于结构简单的数据, 对复杂函数的表示能力有限^[4]。在这种情况下, 深度学习因其深层非线性网络结构可以对各种复杂问题进行特征表示而表现出更强的优势。深度信念网络作为深度学习的一种, 在特征表示上效果显著, 被广泛应用于手写体识别^[5]、图像识别^[6]以及语音识别^[7]等领域。在文本情感分析中, Zhou等将深度信念网络用于亚马逊的4种不同语言的评论中, 研究跨语言情感分类, 实验结果证实了所提方法比以前的研究更加有效^[8]。Mikolv等将深度信念网络与词向量结合用于韩语文章的政治检测, 分类准确率有了很大提升^[9]。文献[10]将深度信念网络与特征选择结合, 提出DBNFS算法, 用于5种不同的数据集中, 实验结果验证了DBNFS的准确率高于已有研究。

以上研究选取的语言都是非中文语言。在中文文本情感分类中, 深度信念网络还没有被系统研究过。本文将深度信念网络用于中文文本情感分类, 研究不同特征集、输入节点和隐层层数对文本情感分类结果的影响。

3 基于深度信念网络的文本情感分类模型

3.1 基于机器学习的文本情感分类模型

文本情感分类的研究对象是隐含有情感表达的主观性文本, 是一类特殊的文本分类任务。基于机器学习的文本情感分类流程主要分为三个阶段: 文本表示、分类器训练和分类与预测, 如图1所示。文本经过分词、去停用词等预处理后, 在文本表示阶段被表示为由特征项构成的向量空间模型。向量空间模型的构成要经过特征构建、维数约减、特征权值计算三个步骤。在分类器训练中, 向量空间模型作为分类算法的输入。通过样本训练, 分类器不断进行参数调整, 直到测试样本的实际误差与预测误差达到设定范围为止。分类器训练完毕, 则可用于其他数据(如实时数据)的分类与预测。

图1 基于机器学习的文本情感分类流程

3.2 深度信念网络结构

作为深度学习的一种, 深度信念网络^[11]是一个概率生成模型。与传统判别模型的神经网络相对, 生成模型是建立一个观察数据与标签之间的联合分布, 对概率P(观察数据|标签)和P(标签|观察数据)都做了评估。而判别模型仅仅评估了后者, 即P(标签|观察数据)。

深度信念网络由一个输入层(可见层)、多个隐层和一个输出层组成, 结构如图2所示。

图2 深度信念网络结构

深度信念网络的训练过程包括非监督的特征学习部分和有监督的网络微调部分。其中特征学习部分由一系列的限制波尔兹曼机(Restricted Boltzmann Machine, RBM)串联而成^[12]。上一层限制波尔兹曼机的输出成为下一层限制波尔兹曼机的输入。当所有的限制波尔兹曼机学习完成后, 则预训练完成。在网络最后加上输出层, 此输出层也为分类层。将预训练完成的网络结构展开, 输入有标签的样本数据, 通过后向传播(Back Propagation, BP)算法对整个网络进行微调。限制波尔兹曼机预训练的过程相当于为多层BP网络预先学习网络权值和阈值, 有效避免BP网络易陷入局部最优、网络不收敛的缺陷。而BP算法极强的自学习、自组织能力得以充分利用。

3.3 限制波尔兹曼机算法原理

限制波尔兹曼机是Hinton在统计力学基础上提出的一种随机神经网络^[13]。限制波尔兹曼机是一个两层神经网络, 层内无连接, 层间全连接。其结构如图3所示。

图3 限制波尔兹曼机结构图

限制波尔兹曼机是一种能量模型, 给定一个有m个神经元的可见层和有n个神经元的隐层, v_i为可见层神经元i的值, h_j为隐层神经元j的值。状态(v, h)能量函数如公式(1)所示。

$E(v,h\left| \theta \right.)=-\sum\limits_{i=1}^{n}{{{a}_{i}}{{v}_{i}}-\sum\limits_{j=1}^{n}{{{b}_{j}}{{h}_{j}}-}}\sum\limits_{i=1}^{m}{\sum\limits_{j=1}^{n}{{{v}_{i}}}}{{W}_{ij}}{{h}_{j}}$ (1)

其中, $\theta =\{{{W}_{ij}},{{a}_{i}},{{b}_{j}}\}$为限制波尔兹曼机的实数参数。W_ij为可见层单元i与隐层单元j的连接权值。a_i表示可见层单元i的阈值, b_j表示隐层单元j的阈值。

根据限制波尔兹曼机结构可知: 当给定可见层的状态时, 隐层节点的激活状态之间是条件独立的。那么, 第j个隐层节点的激活概率如公式(2)所示。

$P({{h}_{j}}=1|v,\theta )=\sigma \left( {{b}_{j}}+\sum\limits_{i}{{{v}_{i}}{{W}_{ij}}} \right)$ (2)

其中, $\sigma (x)=\frac{1}{1+\exp (-x)}$为Sigmoid激活函数。

同理, 当给定隐层节点的激活状态时, 各可见层节点的激活状态之间也是条件独立的, 即第i个可见层节点的激活概率如公式(3)所示。

$P({{v}_{i}}=1|h,\theta )=\sigma \left( {{a}_{i}}+\sum\limits_{j}{{{W}_{ij}}{{h}_{j}}} \right)$ (3)

对限制波尔兹曼机进行训练, 目的是得到合适的θ值, 最大程度地拟合给定训练数据。参数θ可以通过最大化训练集上的对数似然函数得到, 如公式(4)所示。

${{\theta }^{*}}=\underset{\theta }{\mathop{\arg max}}\,\mathcal{L}\left( \theta \right)=\underset{\theta }{\mathop{\arg \max }}\,\sum\limits_{t=1}^{T}{\log P({{v}^{(t)}}|\theta )}$ (4)

其中, $P({{v}^{(t)}}|\theta )$为似然函数, 它是(v,h)联合概率分布的边际分布, (v,h)的联合概率分布如公式(5)所示。

$P(v,h|\theta )=\frac{{{e}^{-E(v,h|\theta )}}}{Z(\theta )},Z(\theta )=\sum\limits_{v,h}{{{e}^{-E(v,h|\theta )}}}$ (5)

其中, Z(θ)为归一化因子。

为训练限制玻尔兹曼机, Hinton提出一个快速学习算法, 称作对比散度(Contrastive Divergence, CD)算法^[13]。对比散度算法用训练数据初始化可见层, 根据公式(2)计算隐层节点激活状态; 再根据公式(3)用获得的隐层数值计算可见层节点激活状态, 得到输入的重构模型。利用重构误差调整限制波尔兹曼机参数, 使重构误差尽可能减小。根据对比散度算法, 权值更新公式如公式(6)所示。

$\Delta {{w}_{ij}}=\eta (<{{v}_{i}}{{h}_{j}}{{>}_{data}}-<{{v}_{i}}{{h}_{j}}{{>}_{model}})$ (6)

其中, <·>_data表示可见层单元的平均值, <·>_model为重构后模型的平均值, ε为学习速率。

当整个限制波尔兹曼机训练完毕后, 将网络进行全连接, 并将得到的权值用于初始化网络。同时, 分类层将加于网络之上对整个网络进行微调。微调部分是有监督的学习过程, 用BP算法对网络权重进行调整。

重构误差是以输入数据作为初始状态V⁰, 对限制波尔兹曼机进行学习后获得样本与原数据的差异量, 一般用一阶范式或二阶范式来评估。设有T个训练样本, 初始状态均为V⁰, 重构后得到的状态为V, 则对每一个训练样本, 限制波尔兹曼机网络的重构误差计算如公式(7)所示^[14]。

$\begin{align} & error=0 \\ & for t=1,2,\cdot \cdot \cdot ,T \\ & error=error+\parallel {{V}^{\left( t \right)}}-{{V}^{0\left( t \right)}}\parallel \\ & end \\ \end{align}$ (7)

3.4 BP算法原理

BP算法通过误差而不断修正网络的权值和阈值^[15]。BP算法具体计算步骤如下:

假设包含一层隐层的神经网络有N个输入单元, M个输出单元, 隐层单元个数为L个, 神经元激活函数为Sigmoid函数, 训练样本个数为P个。输入向量表示为${{X}_{p}}={{({{x}_{p1}},{{x}_{p2}},\cdots ,{{x}_{pN}})}^{\mathrm{T}}},p=1,2,\cdots ,P$, 输出向量表示为${{Y}_{p}}={{({{y}_{p1}},{{y}_{p2}},\cdots ,{{y}_{pM}})}^{\mathrm{T}}},p=1,2,\cdots ,P$, 期望输出向量表示为${{\hat{Y}}_{p}}={{({{\hat{y}}_{p1}},{{\hat{y}}_{p2}},\cdots ,{{\hat{y}}_{pM}})}^{\mathrm{T}}},p=1,2,\cdots ,P$, 输出误差为E, $E=\sum\limits_{p=1}^{P}{{{E}_{p}}}$, ${{E}_{p}}=\frac{1}{2}\sum\limits_{j=1}^{M}{({{y}_{pj}}-{{{\hat{y}}}_{pj}})},p=1,2,\cdots ,P$。

BP算法需要通过修改权值w_ji使输出误差E达到最小。对于网络中某层第j个神经元u_i, 其当前加权和为$Ne{{t}_{pj}}=\sum\limits_{i}{{{w}_{ji}}{{o}_{pi}}}$, 其中o_pi为上一层的输出。神经元u_j的输出为${{o}_{pj}}=f(Ne{{t}_{pj}})$, 当u_j为输入单元时, o_pj=x_pj, 则神经元u_j权值的修改如公式(8)所示。

${{\Delta }_{p}}{{w}_{ji}}=\eta {{\delta }_{pj}}{{o}_{pj}}$ (8)

其中, 输出层${{\delta }_{pj}}=({{\hat{y}}_{pj}}-{{y}_{pj}}){{{f}'}_{j}}(Ne{{t}_{pj}})$, 隐层${{\delta }_{pj}}={{{f}'}_{j}}(Ne{{t}_{pj}})\sum\limits_{k=1}^{M}{{{\delta }_{pk}}{{w}_{kj}}}$, 参数η为学习率。

4 实验设计

4.1 数据集

本文数据集采用数据堂提供的情感分析语料, 其中包括酒店评论数据、图书评论数据和笔记本电脑评论数据, 分别来自携程旅游网、当当网和京东网。

三个原始数据集中均包含已经标注过的正向文本和负向文本, 且以段落的形式存在。本研究目的是分析句子级别的文本情感倾向, 故对原有数据做相应处理。

(1) 对文档数据进行断句处理。以“\n”和中英文的问号“?”“?”、句号“。”“.”和分号“;”“;”为断句标识对所有文档进行断句。在断句基础上, 去除重复句。

(2) 对断句后的新文本重新进行正负向标注。原始文本段落层次上的正负倾向并不等同于每个句子的正负倾向。在原有段落标注基础上, 删除表示中立或者无法确定正负向的句子。此步骤由一人完成后再由另一人检验, 对存在争议的句子进行讨论后确定其倾向, 删除无法确定的句子, 确保文本正负向标注准确。

(3) 对三个数据集进行随机抽取。本文研究平衡数据的文本情感分类, 对酒店评论数据抽取句子4 000条, 包括2 000条正向评论和2 000条负向评论; 对图书评论抽取句子2 000条, 包括1 000条正向评论和1 000条负向评论; 对笔记本电脑评论抽取句子1 000条, 包括500条正向评论和500条负向评论。

4.2 文本情感特征提取

借鉴文献综述与分析, 选取一元词、二元词、词性、简单依存关系、情感得分和三元组依存关系, 考察特征及其组合对电子商务网站评论文本情感分析结果的影响。其中, 简单依存关系对应于三元组依存关系, 用依存标签标识。

构造一元词、二元词、词性、简单依存关系、情感得分、三元组依存关系特征表示方法, 总共得到各特征维数如表1所示。

表1 评论数据特征集维数

	一元词	二元词	词性	简单依存关系	情感得分	三元组依存关系
酒店	7 076	43 021	87	45	14	140 911
图书	4 457	19 096	88	45	4	66 297
笔记本电脑	2 081	8 225	85	44	4	28 932

4.3 基于深度信念网络的文本情感分类实验

深度信念网络直接作用的文本情感分类任务主要由三部分组成: 文本预处理、文本特征选择和深度神经网络学习, 如图2所示。

图4 基于深度信念网络的中文情感分类流程图

(1) 将预处理过的评论文本转化为文本特征向量空间, 按照文本特征表示的三个步骤(特征构建、特征维数约减和特征权重计算)进行构建。采用信息增益得分进行维数约减; 权重计算采用布尔权重法即“0”、“1”表示法。

(2) 将不同维数的文本特征表示作为深度信念网络的输入, 深度信念网络中的限制波尔兹曼机使用对比散度快速学习算法, 按照公式(6)进行计算。计算测试样本的结果极性分类准确率。限制波尔兹曼机每个隐层的重构误差按照公式(7)计算。

采用分类准确率作为评价指标, 指标数值越大, 则文本情感分类的结果越准确。每个特征集的维数分别取信息增益得分靠前的1 000, 2 000, 4 000, 6 000, 8 000, 10 000, 12 000, 14 000项作为网络输入。

深度信念网络的网络结构和参数设置对文本情感分类结果有很大影响。为比较不同网络层数对分类准确率的影响, 设置深度信念网络隐层层数分别为2、3、5层。不同网络层数与其对应的隐层节点数如表2所示。

表2 深度信念网络结构设置

隐层层数	网络结构
2	X-600-300
3	X-600-300-100
5	X-2000-1000-500-200-100

以X代表输入节点, 2层层数的网络结构为X-600-300, 表示第一隐层节点数为600, 第二隐层节点数为300。依此类推, 3层隐层网络结构的隐层节点数依次为600、300和100; 5层隐层网络结构的隐层节点数依次为2 000、1000、500、200和100, 此网络结构只针对特征维数4 000以上的数据集。由于本实验目的为预测评论文本的极性, 只有一个值, 故输出节点个数为1。

深度信念网络训练过程中的参数设置如下: 限制波尔兹曼机的动量为0.9, 学习速率为0.01, 微调部分的激活函数为Sigmoid函数, 学习速率为0.9, 动量为0.5。BP算法进行微调的迭代次数为50, 其他为深度学习工具箱默认参数。

采用浅层网络包含1层隐层的BP网络作为对比实验, 网络结构为X-600。网络迭代次数为50, 其他参数为深度学习工具箱默认参数。

所有实验均在一台惠普LV2011的台式计算机上完成, 其基本的软硬件配置为: Intel(R) Core(TM) i5-2400 CPU @3.10 GHz; 8.00GB RAM; Windows 7 旗舰版64位操作系统; Matlab R2014a。

5 实验结果及分析

5.1 实验结果

实验结果记录了4种网络结构、6种不同种类特征集的分类准确率和各层重构误差。由于源数据结果庞大, 故对同一网络结构下的数值结果进行最小值、最大值和平均值计算, 统计结果如表3至表6所示。

表3 DBN:X-2000-1000-500-200-100统计结果

比较项	准确率	重构误差1	重构误差2	重构误差3	重构误差4	重构误差5	运行时间(s)
最小值	0.805 8	9.440 8	6.079 8	2.424 1	2.435 5	1.496 1	1 696.6
最大值	0.869 2	22.590 3	10.356 6	5.230 8	5.244 5	4.304 0	4 970.7
平均值	0.830 3	16.094 4	8.771 3	3.979 8	4.179 6	3.064 9	3 208.9

表4 DBN:X-600-300-100统计结果

比较项	准确率	重构误差1	重构误差2	重构误差3	运行时间(s)
最小值	0.811 6	7.317 5	2.716 8	1.397 4	166.3
最大值	0.870 0	26.542 9	6.281 1	4.412 9	1 503.6
平均值	0.830 1	15.928 8	4.961 5	2.939 8	763.4

表5 DBN:X-600-300统计结果

比较项	准确率	重构误差1	重构误差2	运行时间(s)
最小值	0.800 0	7.329 6	2.704 4	142.2
最大值	0.870 0	26.592 1	9.571 2	1409.5
平均值	0.832 7	16.125 1	5.090 7	717.4

表6 BP:X-600统计结果

比较项	准确率	运行时间
最小值	0.813 3	45.35
最大值	0.864 1	1117.5
平均值	0.833 3	322.3

5.2 实验结果分析

(1) 不同类别特征集对分类准确率的影响

将6种类别特征集(Unigram、+Bigram、+POS、+Dep、+Score、Treegram)分别用于4种不同网络结构: DBN:X-2000-1000-500-200-100、DBN:X-600-300-100、DBN:X-600-300、BP:X-600。对应网络结构中不同类别特征集下的分类准确率如图5-图8所示。

图5 网络DBN:X-2000-1000-500-200-100不同特征集下的分类准确率

图6 网络DBN:X-600-300-100不同特征集下的分类准确率

图7 网络DBN:X-600-300不同特征集下的分类准确率

图8 网络BP:X-600不同特征集下的分类准确率

通过对图5-图8中不同特征集得到的结果进行分析, 计算不同特征集平均分类准确率的大小, 得出结论: 无论是多个隐层的深度信念网络还是一个隐层的BP网络, 三元组依存关系特征都取得了较高的分类准确率, 一元词和二元词的组合特征效果其次, 效果最差的特征表示是仅用一元词特征。考虑到深度学习的特征学习能力, 这进一步说明三元组依存关系特征中蕴含丰富的文本信息, 在文本情感分类特征表示中优势明显。

(2) 特征维数对分类准确率的影响

为分析特征维数对分类准确率的影响, 将各网络结构中在相同输入维数下的不同类别特征得到的准确率的平均值进行比较, 结果如表7所示。

表7 不同网络结构下不同输入维数的分类准确率比较

	DBN: X-2000-1000-500-200-100	DBN: X-600-300-100	DBN: X-600-300	BP: X-600
1 000	-	0.823 4	0.823 4	0.825 5
2 000	-	0.829 2	0.830 9	0.825 1
4 000	0.823 7	0.832 7	0.830 6	0.831 7
6 000	0.831 1	0.832 9	0.835 9	0.834 4
8 000	0.835 0	0.829 3	0.837 9	0.839 9
10 000	0.830 0	0.830 6	0.834 6	0.834 1
12 000	0.831 0	0.832 6	0.835 4	0.835 1
14 000	0.830 0	0.832 4	0.832 6	0.840 7

表7中, 最高分类准确率与输入维数并没有呈现明显的规律性。因此得出结论: 网络维数对分类准确率的影响不大, 但网络运行时间随着输入节点的增多而增长。在选择输入节点个数时, 应在保证分类准确率的情况下, 适当地选择较小的特征维数。

(3) 网络层数对网络性能的影响

网络层数与网络性能之间的关系通过网络训练过程中得到的重构误差进行分析。

表4、表5、表6中, 第一层重构误差与输入节点有关, 输入节点多则第一层重构误差大。大多数深度信念网络的重构误差随着网络层数的增加而减少, 但在5层深度信念网络中, 第4层重构误差比第3层大。对5层深度信念网络出现的例外进行分析发现, 并不是网络隐层层数越多, 分类准确率就越高。网络层数的增加会导致运行时间的增长。因此, 在设置网络结构时应视具体情况而定。

(4) 深度信念网络与BP网络的分析

①准确率分析

将不同层数的深度信念网络结构与BP网络的分类准确率进行比较, 比较不同输入节点上的准确率大小。选择4 000维数以上特征的分类结果, 共有32个数值, 结果如图9所示。

图9 不同网络结构情感分类折线图

图9中深度信念网络结构分类准确率在各输入节点上趋势基本一致。BP网络中三元组依存关系特征的分类准确率(图9中28-32节点对应分类准确率)明显低于深度信念网络。鉴于依存关系特征的复杂性, 说明BP网络在复杂特征下的学习能力不及深度信念网络。

②收敛性分析

在训练过程中, 由于BP网络权重分配的随机性, 易陷入局部极小, 导致计算不收敛。在本次实验中, BP:X-600没有收敛的比例达4.5%。BP网络收敛与不收敛两种状态的分类准确率误差如图10和图11所示。

图10 BP网络收敛时的准确率误差

图11 BP网络不收敛时的准确率误差

(5) 与其他相关研究的比较

在分类准确率上, 与其他相关研究进行比较, 文献[9]将深度信念网络与词向量特征进行结合, 用于韩语政治文章的检测, 准确率为81.8%。本文将依存关系特征与深度信念网络结合, 用于中文的文本情感分类, 准确率为86.2%。分类准确率除了受所用特征影响, 还与网络结构的设置、语料相关。要得到具体影响分类准确率的因素, 还需要进行更多设置相同控制变量的实验。

通过上述对数据结果的分析比较, 得出结论:

(1) 各特征及特征组合用于深度信念网络进行文本情感分类任务时, 三元组依存关系特征分类准确率最高, 其次是一元词和二元词的组合特征。证明了三元组依存关系特征在文本情感分类任务中用于文本表示的优势。

(2) 在设置深度信念网络的网络层数时, 并不是网络层数越多, 分类准确率越高, 要根据具体情况并结合网络训练时间而定。

另外, 本文实验对象为中文电子商务网站评论数据, 较西方语言在文字处理上更为复杂, 在语言特点上有明显不同, 且深度学习在中文情感分类研究中较少。深度学习用于中文文本情感分类中的网络结构及参数还需要进一步研究。

6 结语

深度信念网络在文本情感分析领域的应用目前还没有系统的研究。本文选取一元词、二元词、词性、简单依存关系、情感得分和三元组依存关系特征用于深度信念网络, 通过设置不同特征集、不同网络深度、不同学习算法研究特征及其组合对电子商务网站评论文本情感分析结果的影响, 研究不同特征集对分类准确率的影响、同一特征集不同维数对分类准确率的影响、网络深度对分类准确率的影响、深度信念网络与BP网络对分类准确率的影响这4方面的问题。实验结果表明, 三元组依存关系特征表示方法在大多数网络结构中有较好的结果, 分类准确率并不会随深度信念网络层数的增多而增加, 网络层数的设定要根据具体情况并结合网络训练时间而定。

本文通过深度信念网络在文本情感分析中的过程研究与性能分析, 验证了深度学习对复杂任务有很强的学习能力, 为深度信念网络进行情感分类任务时的参数选择和模型设置提供了参考。其他深度学习模型的实验还没有得到实现和比较分析, 这是下一步研究方向。

作者贡献声明

张庆庆: 设计研究方案, 执行实验, 撰写论文;

贺兴时: 提出研究思路;

王慧敏: 实验结果分析;

蒙胜军: 论文修改和修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: suiyue2959@163.com。

[1] 张庆庆. hotel4000.xls. 酒店评论数据.

[2] 张庆庆. book2000.xls. 图书评论数据.

[3] 张庆庆. notebook1000.xls. 笔记本电脑评论数据.

[4] 张庆庆. Features.java. 三元组依存关系特征抽取程序.

[5] 张庆庆. DBNlearning.m.深度信念网络训练程序.

[6] 张庆庆. BPnet.m. BP网络训练程序.

参考文献

View Option

[1]	Liu B.Sentiment Analysis and Opinion Mining[M]. Morgan & Claypool Publishers, 2012. [本文引用:1]
[2]	Cui Z Y, Cao Z J, Yang J Y, et al. Hierarchical Recognition System for Target Recognition from Sparse Representations[J]. Mathematical Problems in Engineering, 2015: Article ID 527095. [本文引用:1]
[3]	张庆庆, 刘西林. 基于依存句法关系的文本情感分类研究[J]. 计算机工程与应用, 2015, 51(22): 28-32. 为增加向量空间模型的文本语义信息，提出三元组依存关系特征构建方法，将此方法用于文本情感分类任务中。三元组依存关系特征构建方法在得到完整依存解析树的基础上，先依据中文语法特点，制定相应规则对原有完整树进行冗余结点的合并和删除；再将保留的依存树转化为三元组关系并一般化后作为向量空间模型特征项。为了验证此种特征表示方法的有效性，构造出在一元词基础上添加句法特征、简单依存关系特征和词典得分不同组合下的特征向量空间。将三元组依存关系特征向量与构造出的不同组合特征向量分别用于支持向量机和深度信念网络中。结果表明，三元组依存关系文本表示方法在分类精度上均高于其他特征组合表示方法，进一步说明三元组依存关系特征能更充分表达文本语义信息。 DOI:10.3778/j.issn.1002-8331.1508-0237 Magsci URL [本文引用:1] (Zhang Qingqing, Liu Xilin.Sentiment Analysis Based on Dependency Sytactic Relation[J]. Computer Engineering and Applications, 2015, 51(22): 28-32.)
[4]	Balahur A, Turchi M.Comparative Experiments Using Supervised Learning and Machine Translation for Multilingual Sentiment Analysis[J]. Computer Speech & Language, 2014, 28(1): 56-75. Sentiment analysis is the natural language processing task dealing with sentiment detection and classification from texts. In recent years, due to the growth in the quantity and fast spreading of user-generated contents online and the impact such information has on events, people and companies worldwide, this task has been approached in an important body of research in the field. Despite different methods having been proposed for distinct types of text, the research community has concentrated less on developing methods for languages other than English. In the above-mentioned context, the present work studies the possibility to employ machine translation systems and supervised methods to build models able to detect and classify sentiment in languages for which less/no resources are available for this task when compared to English, stressing upon the impact of translation quality on the sentiment classification performance. Our extensive evaluation scenarios show that machine translation systems are approaching a good level of maturity and that they can, in combination to appropriate machine learning algorithms and carefully chosen features, be used to build sentiment analysis systems that can obtain comparable performances to the one obtained for English. DOI:10.1016/j.csl.2013.03.004 URL [本文引用:1]
[5]	Mleczko W K, Kapuscinski T, Nowicki R K.Rough Deep Belief Network - Application to Incomplete Handwritten Digits Pattern Classification[J]. Information and Software Technologies, 2015, 538: 400-411. DOI:10.1007/978-3-319-24770-0 URL [本文引用:1]
[6]	Zhao Q N, Ma J J, Gong M G, et al.Three-Class Change Detection in Synthetic Aperture Radar Images Based on Deep Belief Network[J]. Journal of Computational and Theoretical Nanoscience, 2016, 13(6): 3757-3762. In this paper, we propose a novel three-class change detection approach for synthetic aperture radar images (SAR) based on deep learning. In most literatures, change detection in images is a method... DOI:10.1007/978-3-662-49014-3_62 URL [本文引用:1]
[7]	Dahl G E, Yu D, Deng L, et al.Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42. We propose a novel context-dependent (CD) model for large-vocabulary speech recognition (LVSR) that leverages recent advances in using deep belief networks for phone recognition. We describe a pre-trained deep neural network hidden Markov model (DNN-HMM) hybrid architecture that trains the DNN to produce a distribution over senones (tied triphone states) as its output. The deep belief network pre-training algorithm is a robust and often helpful way to initialize deep neural networks generatively that can aid in optimization and reduce generalization error. We illustrate the key components of our model, describe the procedure for applying CD-DNN-HMMs to LVSR, and analyze the effects of various modeling choices on performance. Experiments on a challenging business search dataset demonstrate that CD-DNN-HMMs can significantly outperform the conventional context-dependent Gaussian mixture model (GMM)-HMMs, with an absolute sentence accuracy improvement of 5.8% and 9.2% (or relative error reduction of 16.0% and 23.2%) over the CD-GMM-HMMs trained using the minimum phone error rate (MPE) and maximum-likelihood (ML) criteria, respectively. DOI:10.1109/TASL.2011.2134090 URL [本文引用:1]
[8]	Zhou G, Zeng Z, Huang J X, et al.Transfer Learning for Cross-Lingual Sentiment Classification with Weakly Shared Deep Neural Networks[C]// Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, Pisa, Italy. New York, USA: ACM, 2016: 245-254. [本文引用:1]
[9]	Mikolv T, Chen K, Corrado G, et al. Efficient Estimation of Word Representation in Vector Space[OL]. arXiv Preprint, arXiv:1301.3781, 2013. [本文引用:2]
[10]	Ruangkanokman P, Achalakul T, Akkarajitsakul K.Deep Belief Networks with Feature Selection for Sentiment Classification[C]// Proceedings of the 7th International Conference on Intelligent Systems, Modelling and Simulation. 2016: 25-27. [本文引用:1]
[11]	Hinton G E, Salakhutdinov R R.Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647 URL [本文引用:1]
[12]	Zeng N, Wang Z, Zhang H, et al.Deep Belief Networks for Quantitative Analysis of a Gold Immunochromatograpghic Strip[J]. Cognitive Computation, 2016, 8(4): 684-692. Gold immunochromatographic strip (GICS) has become a popular membrane-based diagnostic tool in a variety of settings due to its sensitivity, simplicity and rapidness. This paper aimed to develop a... DOI:10.1007/s12559-016-9404-x URL [本文引用:1]
[13]	Hinton G E.A Practical Guide to Training Restricted Boltzmann Machines[J]. Neural Networks: Tricks of the Trade, 2012, 7700: 599-619. DOI:10.1007/978-3-642-35289-8 URL [本文引用:2]
[14]	Hinton G E.Training Products of Experts by Minimizing Contrastive Divergence[J]. Neural Computation, 2002, 14(8): 1771-1800. It is possible to combine multiple latent-variable models of the same data by multiplying their probability distributions together and then renormalizing. This way of combining individual expert models makes it hard to generate samples from the combined model but easy to infer the values of the latent variables of each expert, because the combination rule ensures that the latent variables of different experts are conditionally independent when given the data. A product of experts (PoE) is therefore an interesting candidate for a perceptual system in which rapid inference is vital and generation is unnecessary. Training a PoE by maximizing the likelihood of the data is difficult because it is hard even to approximate the derivatives of the renormalization term in the combination rule. Fortunately, a PoE can be trained using a different objective function called contrastive divergence whose derivatives with regard to the parameters can be approximated accurately and efficiently. Examples are presented of contrastive divergence learning using several types of expert on several types of data. DOI:10.1162/089976602760128018 URL [本文引用:1]
[15]	Rumelhart D E .Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations[J]. Language, 1986, 63(4): 45-76. Rumelhart, David E; McClelland, James L DOI:10.2307/415721 URL [本文引用:1]

Sentiment Analysis and Opinion Mining

2012

... 目前用于文本情感分类研究的主流方法是机器学习, 主要针对文本情感分类任务的特征表示和分类模型.用于文本表示的特征类别有一元词(Unigram)、多元词(N-Grams)、词性(Part-of-Speech, POS)、词的关系特征、基于规则的特征、结合情感词典的特征、社交网络特征和表示词语间修饰关系的依存句法关系特征等^[1,2,3]. ...

Hierarchical Recognition System for Target Recognition from Sparse Representations

2015

基于依存句法关系的文本情感分类研究

2015

Sentiment Analysis Based on Dependency Sytactic Relation

2015

Comparative Experiments Using Supervised Learning and Machine Translation for Multilingual Sentiment Analysis

2014

... 在分类模型方面, 传统分类模型如支持向量机、朴素贝叶斯、最大熵模型等也取得了不错效果, 但仅针对于结构简单的数据, 对复杂函数的表示能力有限^[4].在这种情况下, 深度学习因其深层非线性网络结构可以对各种复杂问题进行特征表示而表现出更强的优势.深度信念网络作为深度学习的一种, 在特征表示上效果显著, 被广泛应用于手写体识别^[5]、图像识别^[6]以及语音识别^[7]等领域.在文本情感分析中, Zhou等将深度信念网络用于亚马逊的4种不同语言的评论中, 研究跨语言情感分类, 实验结果证实了所提方法比以前的研究更加有效^[8].Mikolv等将深度信念网络与词向量结合用于韩语文章的政治检测, 分类准确率有了很大提升^[9].文献[10]将深度信念网络与特征选择结合, 提出DBNFS算法, 用于5种不同的数据集中, 实验结果验证了DBNFS的准确率高于已有研究. ...

Rough Deep Belief Network - Application to Incomplete Handwritten Digits Pattern Classification

2015

Three-Class Change Detection in Synthetic Aperture Radar Images Based on Deep Belief Network

2016

Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition

2012

Transfer Learning for Cross-Lingual Sentiment Classification with Weakly Shared Deep Neural Networks

2016

Efficient Estimation of Word Representation in Vector Space

1301

... 在分类准确率上, 与其他相关研究进行比较, 文献[9]将深度信念网络与词向量特征进行结合, 用于韩语政治文章的检测, 准确率为81.8%.本文将依存关系特征与深度信念网络结合, 用于中文的文本情感分类, 准确率为86.2%.分类准确率除了受所用特征影响, 还与网络结构的设置、语料相关.要得到具体影响分类准确率的因素, 还需要进行更多设置相同控制变量的实验. ...

Deep Belief Networks with Feature Selection for Sentiment Classification

2016

Reducing the Dimensionality of Data with Neural Networks

2006

... 作为深度学习的一种, 深度信念网络^[11]是一个概率生成模型.与传统判别模型的神经网络相对, 生成模型是建立一个观察数据与标签之间的联合分布, 对概率P(观察数据|标签)和P(标签|观察数据)都做了评估.而判别模型仅仅评估了后者, 即P(标签|观察数据). ...

Deep Belief Networks for Quantitative Analysis of a Gold Immunochromatograpghic Strip

2016

... 深度信念网络的训练过程包括非监督的特征学习部分和有监督的网络微调部分.其中特征学习部分由一系列的限制波尔兹曼机(Restricted Boltzmann Machine, RBM)串联而成^[12].上一层限制波尔兹曼机的输出成为下一层限制波尔兹曼机的输入.当所有的限制波尔兹曼机学习完成后, 则预训练完成.在网络最后加上输出层, 此输出层也为分类层.将预训练完成的网络结构展开, 输入有标签的样本数据, 通过后向传播(Back Propagation, BP)算法对整个网络进行微调.限制波尔兹曼机预训练的过程相当于为多层BP网络预先学习网络权值和阈值, 有效避免BP网络易陷入局部最优、网络不收敛的缺陷.而BP算法极强的自学习、自组织能力得以充分利用. ...

A Practical Guide to Training Restricted Boltzmann Machines

2012

... 限制波尔兹曼机是Hinton在统计力学基础上提出的一种随机神经网络^[13].限制波尔兹曼机是一个两层神经网络, 层内无连接, 层间全连接.其结构如图3所示. ...

... 为训练限制玻尔兹曼机, Hinton提出一个快速学习算法, 称作对比散度(Contrastive Divergence, CD)算法^[13].对比散度算法用训练数据初始化可见层, 根据公式(2)计算隐层节点激活状态; 再根据公式(3)用获得的隐层数值计算可见层节点激活状态, 得到输入的重构模型.利用重构误差调整限制波尔兹曼机参数, 使重构误差尽可能减小.根据对比散度算法, 权值更新公式如公式(6)所示. ...

Training Products of Experts by Minimizing Contrastive Divergence

2002

... 重构误差是以输入数据作为初始状态V⁰, 对限制波尔兹曼机进行学习后获得样本与原数据的差异量, 一般用一阶范式或二阶范式来评估.设有T个训练样本, 初始状态均为V⁰, 重构后得到的状态为V, 则对每一个训练样本, 限制波尔兹曼机网络的重构误差计算如公式(7)所示^[14]. ...

Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations

1986

... BP算法通过误差而不断修正网络的权值和阈值^[15].BP算法具体计算步骤如下: ...