基于领域ERNIE和BiLSTM模型的酒店评论观点原因分类研究*

图1 观点原因识别模型

Fig.1 The Opinion Reason Classification Model

3.1 ERNIE模型

相比于BERT对文本中的原始语言信号进行建模,ERNIE能通过多阶段知识掩码策略学习海量语料中实体和短语级的先验知识,从而对更大语义单元建模,增强其语言表示能力。本文以中文句子为例,设计了BERT和ERNIE掩码策略的对比图,如图2所示,BERT通过“武”、“汉”、“湖”、“的”等字的局部共现,可以判断出被掩盖的“北”字,但在这个过程中模型没有学习到更大语义单元的“武汉”、“湖北”相关的知识。而ERNIE通过掩盖文本中的实体和词语能隐式地学习到“武汉”、“湖北”、“英雄”等词的语义以及它们之间的相关关系。此外,ERNIE本身的输入还是基于字的,这使得模型的使用不需要依赖其他词法工具。

图2

图2 BERT与ERNIE不同的掩码策略

Fig.2 The Different Mask Strategies of BERT and ERNIE

多阶段的知识掩码策略无法对整句话很好地建模,而本文构建的文本分类任务需要获得整句话的语义表示来分类。因此需要进行NSP任务,本文设计的NSP过程如图3所示,模型输入的两个句子有50%的可能性是一段评论中连续的两个句子（正例样本）,有50%的可能性是来自不同评论的两个句子（负例样本）。在预训练中,模型需要预测输入的两个句子是否连续。由于评论文本并没有严格的上下文关系,仅让模型判断两句评论是否连续有一定的难度,因此本文在预训练选择负例样本时的选择策略是：以一定的概率选择不同情感倾向的两个句子。例如将“酒店服务人员态度很好,准时接送机。”和“服务员不行,爱答不理。”两句评论组成一个负例,让模型判断这两个句子的情感是否一致。这更有利于模型的收敛,同时也让模型隐式地学习了评论中的情感知识,使模型能更好地处理评论相关的任务。

图3

图3 下一句预测模型

Fig.3 Prediction Model for the Next Sentence

3.2 基于DERNIE模型的特征提取

ERNIE在预训练数据集上沿用了BERT的中文维基百科,并且在此基础上加入百度自有的数据集：百度百科、百度新闻和百度贴吧。DERNIE模型是在ERNIE的预训练数据集上额外添加了酒店在线预订平台上抓取的数据量百万级别的语料库,其他过程与ERNIE模型一致,DERNIE模型结构如图4所示。经过预处理后,酒店中文在线评论语料库与ERNIE自有的数据集一起进行NSP+MLM预训练任务来提取文本特征,使模型额外习得酒店领域的知识。此外,本文通过完形填空^[25]实验来评估预训练模型DERNIE、ERNIE和BERT在酒店中文在线评论上的预测结果,从而证明自构领域语料库的必要性。

图4

图4 DERNIE模型结构

Fig.4 The Structure of DERNIE Model

ERNIE和BERT一样,使用一个多层双向的Transformer编码器^[26]作为主体结构。相比于LSTM模型^[27]逐步地处理序列,Transformer依靠自注意力（Self-Attention）机制为序列中的每一个字编码上下文信息,因此它可以实现大规模的并行计算,这既加速了运算速度,也使Transformer可以堆叠得更深,学习到更深层次的文本特征。

对于给定输入文本序列 $s = (t_{1}, t_{2}, \dots, t_{N})$ ,可以将 $t_{i}$ 视作一个中文里的汉字,例如,图4中 $s$ 为“没有拖鞋,环境差。”,经过ERNIE输入层的转换得到输入向量 $x = (x_{1}, x_{2}, \dots, x_{N})$ ,其中 $x_{i}$ 表示 $t_{i}$ 的输入向量。将 $x$ 输入ERNIE,经过ERNIE主体结构在其自有数据集和酒店领域的预训练语料上进行多任务预训练后,取最后一层Transformer的状态 $h = (h_{1}, h_{2}, \dots, h_{N})$ 为输入文本的特征。这些特征的每一个向量都编码了上下文的信息,可以被输入到其他网络进行如文本分类、序列标注等自然语言处理相关的任务。

3.3 BiLSTM模型

对于序列数据,循环神经网络（Recurrent Neural Network,RNN）是一个经典的模型,但其由于梯度消失和梯度爆炸问题无法学习到序列中的长期依赖,因此在自然语言处理任务中常使用的是LSTM模型。与RNN类似,LSTM模型在每一步都接受上一步的输出作为输入,通过记忆单元和门的结构存储长期依赖信息,改善了RNN中存在的长期依赖问题。

LSTM模型的运算是单向的,但是在语言处理中编码一个词的含义需要考虑上下文的信息,因此有必要使用两个LSTM模型对从前往后的信息和从后往前的信息分别建模,组合形成双向的长短期记忆网络（BiLSTM）模型。本文参考BiLSTM-CRF模型^[28],采用的BiLSTM的结构如图5所示,输入向量为 $x$ ,经过前向LSTM模型得到输入的前向表示 $h_{R}$ ,同时经过后向LSTM模型得到输入的后向表示 $h_{L}$ ,将每个位置的前向表示与后向表示拼接在一起得到BiLSTM模型最终的输出 $h$ ,由于输出综合了前后LSTM模型的信息,所以BiLSTM模型包含更丰富的信息,能取得更好的分类效果。

图5

图5 BiLSTM模型结构

Fig.5 The Structure of BiLSTM Model

3.4 DERNIE-BiLSTM的观点原因句分类模型

尽管DERNIE能通过预训练语料获得酒店评论的先验语言知识,但直接用于分类会使模型无法充分利用评论中的观点原因片段信息,例如在“没有拖鞋环境差”这句评论中,“没有拖鞋”这个观点原因片段直接决定了该句评论应该被分类为观点原因句,但模型中特殊标记“[CLS]”的表示中没有针对性地对该片段进行建模,因此需要使用BiLSTM模型融合DERNIE输出的所有特征。

DERNIE-BiLSTM模型结构如图6所示,对于给定的输入序列 $s = (t_{1}, t_{2}, \dots, t_{N})$ ,经过ERNIE输入层的转换后得到输入向量 $x = (x_{1}, x_{2}, \dots, x_{N})$ ,输入向量经过DERNIE处理后得到Transformer编码器最后一层的隐藏状态 $h = (h_{1}, h_{2}, \dots, h_{N})$ ,其中 $h_{i}$ 的维度为 $H$ , $H$ 是ERNIE隐藏层的维度,取值为768。整个序列的特征 $h$ 被传入BiLSTM网络进行融合运算,得到BiLSTM模型的隐藏层状态 $\tilde{h} = ({\tilde{h}}_{1}, {\tilde{h}}_{2}, \dots, {\tilde{h}}_{N})$ ,其维度的设置与ERNIE一致,经过前向LSTM和后向LSTM后,特征被拼接得到最后维度为 $2 H$ 的隐藏层状态 ${\tilde{h}}_{i}$ ,其最后一个时刻的状态 ${\tilde{h}}_{N}$ 被用作分类。

图6

图6 DERNIE-BiLSTM模型结构

Fig.6 The Structure of DERNIE-BiLSTM Model

经过BiLSTM模型的序列化处理后, ${\tilde{h}}_{N}$ 融合了DERNIE提取出的所有特征并被传入FC层用于计算得分。本文基于BiLSTM-CRF^[28],提出得分向量 $φ \in R^{1 \times K}$ 的计算方法如公式（1）所示。

(1)

φ = {\tilde{h}}_{N} ∙ W_{φ} + b_{φ}

其中, $W_{φ} \in R^{2 H \times K}$ , $W_{φ} \in R^{1 \times K}$ ,K是分类类别数。由于ORSC是一个二分类任务,所以 $K$ 值为2, $φ$ 表示当前文本分别属于每个类别的得分。通过Softmax回归计算输入序列 $s$ 属于第 $i$ 个类别的概率值,如公式（2）所示。

(2)

P (i | s, θ) = \frac{e x p (φ_{i})}{\sum_{j}^{K} e x p (φ_{j})}

其中, $θ$ 是整个模型的参数, $s$ 是输入的文本序列,假设 $s$ 的正确类别是第n个类别,则模型的训练过程就是最大化 $n$ 的对数似然概率 $l o g P (n | s, θ)$ 。

DERNIE-BiLSTM的训练和超参数调优过程如算法1所示。在每个回合（epoch）中,将训练数据拆分为若干个批次尺寸（batch_size）,每次将一个batch_size的数据传入模型进行训练,在训练的每一个步数（step）中,首先通过领域ERNIE-BiLSTM模型的前向传播得到损失值,然后通过模型的反向传播得到所有参数的梯度值,最后根据梯度值更新模型的所有参数。

算法1： DERNIE-BiLSTM的训练过程

① for each epoch do

② for each batch_size do

③ 1） DERNIE model forward pass

④ 2） BiLSTM layer forward pass

⑤ 3） calculate the loss

⑥ 4） BiLSTM layer backward pass

⑦ 5） DERNIE model backward pass

⑧ 6） update parameters

⑨ end for

⑩ end for

4 实验与分析

4.1 实验数据与预处理

从酒店在线预订平台携程旅行网上抓取包括武汉、北京、成都、杭州等在内的多个城市的三星级及以下酒店在线评论数据。这个星级区间的酒店和在线评论相对较多,正负面评论分布相对均衡,样本丰富度高。每个数据样本包含用户ID、评分、评论文本等字段,总计抓取2 148 386条评论。本文对原始评论数据预处理的步骤包括：删除不包含汉字的评论和特殊字符;规范化句子中的换行符、空格与标点符号;将句子中的英文转化为小写,汉字转化为简体;去重;样本均衡化处理。预处理完成后得到1 016 410条评论。基于ERNIE模型,通过对预处理后的酒店评论语料进行两个预训练任务来提取文本特征,使模型习得酒店领域的知识。

ORSC是一个新任务,没有相关的公开数据集,因此本文构建了一个ORSC数据集来验证所提出的DERNIE-BiLSTM模型。从预处理后的酒店预训练语料中筛选并人工标注了7 000条评论,其中包括3 500条包含观点原因的评论和3 500条不包含观点原因的评论,部分标注数据如表1所示。针对ORSC任务,由于不包含观点原因的句子相对较短,包含观点原因的句子通常较长,为避免模型可能会根据句子长短来判断是否包括观点原因,本文构建数据集的句子长度都在64个字符及以下。考虑到ORSC数据集的数量分布均衡,以7∶3划分训练集和测试集,通过在测试集上的预测结果对比评价各模型的表现。

表1 ORSC数据集示例

Table 1 Examples of ORSC Dataset

类别	评论
观点原因句	1.服务人员未经同意擅自进入房间。 2.房间实在太小,二个人都无法并排走 3.无窗,面积很小,非常潮湿闷气,空调的水都是用大矿泉水瓶接的厕所无完整隔断,导致房内更加潮湿。但总体来说,住了一夜没有耽误行程,已经很ok了。
非观点原因句	1.综合条件太差 2.帮朋友订的,不知道怎么样 3.楼下是洗浴,楼上不知道是什么,两三点钟的时候好多脚步声,上楼下楼的,严重影响休息。体验很差！

4.2 实验设计

在两个预训练任务中,将MLM任务的损失记为 $L_{M L M}$ ,NSP任务的损失记为 $L_{N S P}$ ,则总损失为 $L = L_{M L M} + L_{N S P}$ ,在训练过程中模型的目标是最小化总损失 $L$ 。两个预训练任务的超参数调优过程如算法2所示,由于预训练语料的数据量是百万级别的,本文不做多个回合（epoch）循环训练数据,仅以训练模型的步数（step）作为计量单位,在每一个步数中,将一个批次尺寸（batch_size）的数据输入模型,然后运行DERNIE的前向运算,计算出MLM任务和NSP任务的总损失 $L$ ,根据损失计算模型所有参数的梯度,最后根据梯度和学习率更新所有参数。本文采用百度开源的预训练好的语言模型ERNIEBASE中文版作为主体结构,使用ERNIEBASE的默认参数作为DERNIE的初始化参数。由于ERNIE的预训练时间比较长且对显存的压力比较大,在预训练时采用混合精度^[29]技术减少显存开销和提高训练速度。

算法2： DERNIE的参数调优过程

① for each batch_size do

② 1） DERNIE model forward pass

③ 2） calculate the total loss $L$

④ 3） DERNIE model backward pass

⑤ 4） update parameters

⑥ end for

为验证本文提出的观点原因句分类模型的有效性,选择以下方法进行对比实验：TextCNN、DERNIE、BERT-BiLSTM、ERNIE-BiLSTM、DERNIE-BiLSTM。其中,TextCNN通过将词向量拼接形成矩阵,然后在词的方向上进行1维卷积提取文本的局部特征,并将特征合并来进行分类;DERNIE没有使用BiLSTM模型进行特征融合,用第一个特殊标记“[CLS]”的隐藏层状态进行分类;BERT-BiLSTM使用BERT提取文本特征,通过BiLSTM模型融合特征来分类。ERNIE-BiLSTM使用ERNIE提取文本特征,通过BiLSTM模型融合特征来分类;DERNIE-BiLSTM先用酒店领域预训练语言模型DERNIE提取文本特征,然后使用BiLSTM模型融合特征输出分类结果。应用了预训练语言模型ERNIE或者BERT的方法不需要单独训练字向量,但TextCNN需要提前预训练的字向量来提升模型效果,因此使用经过预处理后的酒店评论语料作为训练字向量的语料,利用Word2Vec中的Skip-gram模型训练字向量。本文最终确定的超参数均是对应的方法在测试集上表现最佳的超参数,具体情况如表2所示。

表2 ORSC实验超参数设置

Table 2 Hyperparameters Settings of ORSC Experiment

超参数	TextCNN	DERNIE	BERT-BiLSTM	ERNIE-BiLSTM	DERNIE-BiLSTM
character embedding dimensions	100	768	768	768	768
hidden dimensions	100	768	768	768	768
max sequence length	64	64	64	64	64
batch_size	32	16	32	32	32
learning rate	1e-3	3e-5	5e-5	3e-5	5e-5
epochs	6	11	7	13	20
dropout	0.5	0.1	0.1	0.1	0.1

4.3 评价指标

本文目标是识别ORSC数据集中的观点原因句,本质上是二分类任务,因此使用分类指标准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1值作为实验的评估指标,计算方法如公式（3）-公式（6）所示。

(3)

A c c u r a c y = \frac{T P + T N}{T P + T N + F P + F N}

(4)

P r e c i s i o n = \frac{T P}{T P + F P}

(5)

R e c a l l = \frac{T P}{T P + F N}

(6)

F 1 = \frac{2}{1 / P r e c i s i o n + 1 / R e c a l l}

其中,TP（True Positive）表示将正例预测为正例的个数,TN（True Negative）表示将负例预测为负例的个数,FP（False Positive）表示将负例预测为正例的个数,FN（False Negative）表示将正例预测为负例的个数。

4.4 实验结果与分析

（1）预训练任务的结果与分析

DERNIE预训练期间总损失 $L$ 的变化情况如图7所示,由于本文是基于ERNIE官方训练好的模型做的两个预训练任务,ERNIE在初始化时已经具备了一定的语言知识,所以 $L$ 在前期收敛快,模型学习效果好。因此,在预训练时,模型对酒店领域数据的学习非常快。

图7

图7 预训练过程的损失 $L$ 变化

Fig.7 Changes of Loss $L$ in the Pre-training Process

为验证预训练任务是否使DERNIE具备了酒店评论领域的知识,证明所抓取语料库的有效性,进行完形填空^[25]实验,掩盖评论样本中的某个词,使用模型预测被掩盖的词。同时对比了三种语言模型在完形填空实验上的表现,其中BERT是谷歌官方预训练的中文模型,预训练语料来自维基百科,预训练任务为MLM和NSP;ERNIE是百度官方预训练的中文模型,预训练任务包括多阶段知识掩码MLM、NSP和DLM;本文提出的DERNIE在百度官方模型的基础上,使用酒店评论语料进行多阶段知识掩码MLM和融合情感知识的NSP预训练,使模型习得酒店领域的知识。

完形填空的部分预测结果如表3所示。在例1中,BERT的预测结果不是一个正确的词,因为基于字的预训练方式导致BERT学习到的词级知识比较少,无法正确预测。相对而言,ERNIE具备更多词级的知识,预测出来的是一个完整的词,这证明了多阶段知识掩码策略的有效性,但ERNIE预测出来的词与酒店领域没有关系。DERNIE的预测结果则比较合适,“服务态度”是酒店领域的常用词,这表明DERNIE已经具备了一定的领域知识,基于酒店领域预训练是有效的。例2和例3类似,BERT和ERNIE预测出的词与酒店相关性比较小,而DERNIE预测出来的都是酒店领域的常用词。从例4和例5中可以看到,DERNIE不仅能准确预测出酒店的方面词,对于酒店评论中常见的情感词“一般”和观点原因“离火车站近”也能准确预测。完形填空的实验证明了在酒店领域的知识推理方面,预训练后的模型DERNIE表现比ERNIE好,这侧面证明了本文爬取的酒店领域训练语料是有效的。

表3 完形填空实验结果

Table 3 Results of Cloze Experiment

例子	样本	BERT预测	ERNIE预测	DERNIE预测
1	很好,主动给我们介绍附近的景点。	服台人务	朋友关系	服务态度
2	卫生差, 有小虫子咬得却都是疱	虽然	虽使	床上
3	极差,住的人三六九等,半夜被吵醒多次	睡眠	环境	隔音
4	硬件设施,和其他酒店差距有点大！	不般	方面	一般
5	位置就是离近,卫生很差	酒店很	学校很	火车站

（2） DERNIE-BiLSTM的结果与分析

本文采用的5种观点原因句识别模型在测试数据集上的表现如表4所示。DERNIE-BiLSTM分类模型在各个指标上的结果均高于94%,优于其他模型。整体来看,应用了预训练语言模型的方法效果都要好于经典的深度学习方法TextCNN,因为预训练语言模型能学习大量的先验语言知识。预训练语言模型输出的字向量是上下文相关的,能够根据每个字的上下文编码字的语义,而传统的Word2Vec方法得到的词向量是上下文无关的,不能应对一词多义的情况,所以基于预训练语言模型提取的文本特征能达到更好的分类效果。DERNIE-BiLSTM的分类准确率和F1值均高于单独应用DERNIE做分类,因为DERNIE仅用第一个特殊标记“[CLS]”的隐藏层状态进行分类,DERNIE-BiLSTM则能通过BiLSTM模型融合DERNIE输出的所有特征,更好地捕获到评论句子中的观点原因片段信息。

表4 ORSC实验结果

Table 4 Results of ORSC Experiment

方法	Accuracy （%）	Precision （%）	Recall （%）	F1-score （%）
TextCNN	90.81	90.64	91.07	90.86
DERNIE	91.33	92.91	89.55	91.20
BERT-BiLSTM	92.57	92.27	92.97	92.62
ERNIE-BiLSTM	94.10	93.86	94.40	94.13
DERNIE-BiLSTM	94.57	94.00	95.25	94.62

BERT-BiLSTM、ERNIE-BiLSTM和DERNIE-BiLSTM具有相同的网络结构,不同的是它们采用不同的预训练语言模型提取文本特征,应用了ERNIE的预训练模型分类准确率和F1值都高于BERT,因为ERNIE在预训练阶段采用多阶段知识掩码MLM,因此相较于BERT基于中文汉字进行预训练的方式,ERNIE能够进一步建模中文词语和实体的语义与关系,对于中文文本的表示能力更强。相比于ERNIE-BiLSTM,DERNIE-BiLSTM取得了更好的效果,这是因为经过基于酒店领域数据的预训练,模型学习到了更多酒店领域的知识,熟悉了特定的语言环境,能更好地提取特征,这也证明了本文自构数据集的有效性。

5 结语

在线评论是用户生成内容的重要组成部分,对于商家和消费者都有十分重要的意义。为了从海量评论中有效地识别出观点原因,本文在携程旅行网上抓取了两百多万条在线评论,经过预处理后构造预训练语料,并通过人工标注构建了一个ORSC训练语料库。基于此,本文提出一个评论中的观点原因识别模型,针对目前文本分类和评论信息抽取方法存在的不足,引入ERNIE作为基础语言模型,在预训练语料上进行了两个预训练任务来提取特征,并通过完形填空对比实验证明了两个预训练任务的有效性。使用BiLSTM模型融合特征输出分类结果,通过多种方法的对比,验证了模型的有效性。

现有研究一般将重点放在对评论中方面的抽取以及方面情感分类上,一定程度上忽略了评论中更有价值的观点原因信息。本文设计的DERNIE-BiLSTM分类模型利用酒店领域的评论数据来习得相关领域的语言背景,在观点原因句识别上具有更高的精度。DERNIE-BiLSTM是基于深度学习的模型,对不同领域的分类任务具有通用性。然而,基于领域数据预训练语言模型对语料库数据量有一定的要求,本文爬取了百万级数据量的预训练语料,这对计算速度和效率会产生一定的影响,未来将研究模型蒸馏等方法减小模型的参数量,提高运算效率。

作者贡献声明

张治鹏：提出研究思路,设计研究方案,进行实验,起草论文;

毛煜升：采集、清洗和分析数据;

张李义：论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

[1] 张治鹏. 观点原因句分类数据集. DOI:10.57760/sciencedb.j00133.00012.

[2] 张治鹏. 酒店领域的预训练语料. DOI:10.57760/sciencedb.j00133.00012.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

, Liu

Sentiment Analysis Based on Clustering: A Framework in Improving Accuracy and Recognizing Neutral Opinions

[J]. Applied Intelligence, 2014, 40(3): 441-452.

DOI:10.1007/s10489-013-0463-3 URL [本文引用: 1]

[2]

Jeyapriya

, Selvi

C S K

Extracting Aspects and Mining Opinions in Product Reviews Using Supervised Learning Algorithm

[C]// Proceeding of the 2nd International Conference on Electronics and Communication Systems. IEEE: 548-552.

[3]

Abas

A R

, El-Henawy

, Mohamed

, et al.

Deep Learning Model for Fine-Grained Aspect-Based Opinion Mining

[J]. IEEE Access, 2020, 8: 128845-128855.

DOI:10.1109/ACCESS.2020.3008824 URL [本文引用: 1]

[4]

徐福, 黄贤英, 蒋兴渝, 等.

用于方面提取的软原型增强自适应损失模型

[J]. 计算机应用研究, 2021, 38(11): 3310-3315.

( Xu

, Huang

Xianying

, Jiang

Xingyu

, et al.

Soft Prototype Enhanced Adaptive Loss Model for Aspect Extraction

[J]. Application Research of Computers, 2021, 38(11): 3310-3315.)

[5]

Sun

, Wang

S H

, Li

Y K

, et al.

ERNIE: Enhanced Representation Through Knowledge Integration

[OL]. arXiv Preprint, arXiv: 1904.09223.

[本文引用: 2]

[6]

Devlin

, Chang

M W

, Lee

, et al.

BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

[OL]. arXiv Preprint, arXiv: 1810.04805.

[本文引用: 2]

[7]

M Q

, Liu

Mining and Summarizing Customer Reviews

[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2004: 168-177.

[8]

Qiu

, Liu

, Bu

J J

, et al.

Expanding Domain Sentiment Lexicon Through Double Propagation

[C]// Proceedings of the 21st International Joint Conference on Artificial Intelligence. 2009: 1199-1204.

[9]

Lakkaraju

, Bhattacharyya

, Bhattacharya

, et al.

Exploiting Coherence for the Simultaneous Discovery of Latent Facets and Associated Sentiments

[C]// Proceedings of the 11th SIAM International Conference on Data Mining. 2011: 498-509.

[10]

, Zhou

L N

, Li

Y J

Improving Aspect Extraction by Augmenting a Frequency-Based Method with Web-Based Similarity Measures

[J]. Information Processing & Management, 2015, 51(1): 58-67.

DOI:10.1016/j.ipm.2014.08.005 URL [本文引用: 1]

[11]

周清清, 章成志.

在线用户评论细粒度属性抽取

[J]. 情报学报, 2017, 36(5): 484-493.

( Zhou

Qingqing

, Zhang

Chengzhi

Fine-Grained Aspect Extraction from Online Customer Reviews

[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(5): 484-493.)

[12]

Andrzejewski

, Zhu

X J

, Craven

Incorporating Domain Knowledge into Topic Modeling via Dirichlet Forest Priors

[C]// Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 25-32.

[13]

Lin

C H

, He

Y L

, Everson

, et al.

Weakly Supervised Joint Sentiment-Topic Detection from Text

[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(6): 1134-1145.

DOI:10.1109/TKDE.2011.48 URL [本文引用: 1]

[14]

Luo

W J

, Zhuang

F Z

, Zhao

W Z

, et al.

QPLSA: Utilizing Quad-Tuples for Aspect Identification and Rating

[J]. Information Processing & Management, 2015, 51(1): 25-41.

DOI:10.1016/j.ipm.2014.08.004 URL [本文引用: 1]

[15]

Jin

, Ho

H H

A Novel Lexicalized HMM-Based Learning Framework for Web Opinion Mining

[C]// Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 465-472.

[16]

, Lam

Deep Multi-Task Learning for Aspect Term Extraction with Memory Interaction

[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2886-2892.

[17]

C H

, Wu

F Z

, Wu

S X

, et al.

A Hybrid Unsupervised Method for Aspect Term and Opinion Target Extraction

[J]. Knowledge-Based Systems, 2018, 148: 66-73.

DOI:10.1016/j.knosys.2018.01.019 URL [本文引用: 1]

[18]

J F

, Jiang

, Xia

Global Inference for Aspect and Opinion Terms Co-Extraction Based on Multi-Task Neural Networks

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(1): 168-177.

DOI:10.1109/TASLP.2018.2875170 URL [本文引用: 1]

[19]

Peters

M E

, Neumann

, Iyyer

, et al.

Deep Contextualized Word Representations

[OL]. arXiv Preprint, arXiv: 1802.05365.

[20]

Chen

, Zhuo

, Wang

BERT for Joint Intent Classification and Slot Filling

[OL]. arXiv Preprint, arXiv: 1902.10909.

[21]

X Y

, Zhang

, Zhou

X H

Chinese Clinical Named Entity Recognition with Variant Neural Structures Based on BERT Methods

[J]. Journal of Biomedical Informatics, 2020, 107: 103422.

DOI:10.1016/j.jbi.2020.103422 URL [本文引用: 1]

[22]

Wang

Q C

, Liu

P Y

, Zhu

Z F

, et al.

A Text Abstraction Summary Model Based on BERT Word Embedding and Reinforcement Learning

[J]. Applied Sciences, 2019, 9(21): 4701.

DOI:10.3390/app9214701 URL [本文引用: 1]

[23]

Wang

X L

, Xu

, Sun

X M

, et al.

Combining Fine-Tuning with a Feature-Based Approach for Aspect Extraction on Reviews

[C]// Proceedings of the 2020 AAAI Conference on Artificial Intelligence, 2020: 13951-13952.

[24]

Kim

Convolutional Neural Networks for Sentence Classification

[OL]. arXiv Preprint, arXiv: 1408.5882

[25]

Taylor

W L

“Cloze Procedure”: A New Tool for Measuring Readability

[J]. Journalism Quarterly, 1953, 30(4): 415-433.

DOI:10.1177/107769905303000401 URL [本文引用: 2]

[26]

Vaswani

, Shazeer

, Parmar

, et al.

Attention is All You Need

[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.

[27]

Hochreiter

, Schmidhuber

Long Short-Term Memory

[J]. Neural Computation, 1997, 9(8): 1735-1780.

PMID:9377276 [本文引用: 1]

Learning to store information over extended time intervals by recurrent backpropagation takes a very long time, mostly because of insufficient, decaying error backflow. We briefly review Hochreiter's (1991) analysis of this problem, then address it by introducing a novel, efficient, gradient-based method called long short-term memory (LSTM). Truncating the gradient where this does not do harm, LSTM can learn to bridge minimal time lags in excess of 1000 discrete-time steps by enforcing constant error flow through constant error carousels within special units. Multiplicative gate units learn to open and close access to the constant error flow. LSTM is local in space and time; its computational complexity per time step and weight is O(1). Our experiments with artificial data involve local, distributed, real-valued, and noisy pattern representations. In comparisons with real-time recurrent learning, back propagation through time, recurrent cascade correlation, Elman nets, and neural sequence chunking, LSTM leads to many more successful runs, and learns much faster. LSTM also solves complex, artificial long-time-lag tasks that have never been solved by previous recurrent network algorithms.

[28]

Huang

, Xu

, Yu

Bidirectional LSTM-CRF Models for Sequence Tagging

[OL]. arXiv Preprint, arXiv: 1508.01991.

[本文引用: 2]

[29]

Micikevicius

, Narang

, Alben

, et al.

Mixed Precision Training

[OL]. arXiv Preprint, arXiv: 1710.03740.