数据分析与知识发现, 2022, 6(9): 65-76 doi: 10.11925/infotech.2096-3467.2021.1303

研究论文

基于领域ERNIE和BiLSTM模型的酒店评论观点原因分类研究*

张治鹏, 毛煜升, 张李义,,

武汉大学信息管理学院 武汉 430072

Classifying Reasons of Hotel Reviews with Domain ERNIE and BiLSTM Model

Zhang Zhipeng, Mao Yusheng, Zhang Liyi,,

School of Information Management, Wuhan University, Wuhan 430072, China

通讯作者: 张李义,ORCID: 0000-0001-8634-9227,E-mail:lyzhang@whu.edu.cn

收稿日期: 2021-11-16   修回日期: 2022-04-27  

基金资助: *国家自然科学基金项目(71874126)

Corresponding authors: Zhang Liyi,ORCID: 0000-0001-8634-9227,E-mail:lyzhang@whu.edu.cn

Received: 2021-11-16   Revised: 2022-04-27  

Fund supported: National Natural Science Foundation of China(71874126)

摘要

【目的】 挖掘在线预订平台评论中的观点原因,提出一个观点原因句分类模型(DERNIE-BiLSTM)。【方法】 构建一个数据量百万级别的酒店领域评论语料库并人工标注一个数据集ORSC,将语料库额外加入ERNIE自有的预训练集中并通过预训练提取ORSC数据集的文本特征,利用BiLSTM模型融合特征并识别包含观点原因的评论。【结果】 在ORSC数据集上,DERNIE短分类准确率为0.913 3, F1值为0.912 0;经过BiLSTM融合特征后的准确率提升到0.945 7,F1值提升到0.946 2。【局限】 预训练语言模型需要大量的训练语料,对计算速度和效率会产生一定影响。【结论】 DERNIE-BiLSTM预训练模型的特征提取和融合方法,能更精准地挖掘评论中的观点原因句。

关键词: 在线评论; 观点原因句分类; ERNIE模型; BiLSTM模型

Abstract

[Objective] This paper proposes a classification model to identify reasons of hotel reviews from online booking platforms. [Methods] Firstly, we constructed a pretraining corpus with millions of online reviews and manually annotated the ORSC dataset for the proposed model. Then, we extracted the text features of ORSC dataset by adding the constructed corpus to ERNIE model. Finally, we used the BiLSTM model to merge all features and identify reviews with reasons. [Results] On ORSC datasets, the DERNIE model’s accuracy was 91.33% while the F1 value was 91.20%. After adding BiLSTM features, the accuracy increased to 94.57% and the F1 value became 94.62%. [Limitations] The pre-trained language models require large amount of data from the additional corpus, which might affect the computing speed and efficiency. [Conclusions] Our new model can effectively identify reason sentences from online reviews.

Keywords: Online Review; Opinion Reason Sentence Classification; ERNIE Model; BiLSTM Model

PDF (1946KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张治鹏, 毛煜升, 张李义. 基于领域ERNIE和BiLSTM模型的酒店评论观点原因分类研究*[J]. 数据分析与知识发现, 2022, 6(9): 65-76 doi:10.11925/infotech.2096-3467.2021.1303

Zhang Zhipeng, Mao Yusheng, Zhang Liyi. Classifying Reasons of Hotel Reviews with Domain ERNIE and BiLSTM Model[J]. Data Analysis and Knowledge Discovery, 2022, 6(9): 65-76 doi:10.11925/infotech.2096-3467.2021.1303

1 引言

在线评论是用户生成内容的重要组成部分,广泛存在于电子商务、在线旅游、本地生活等各类互联网平台上。在线评论中包含着大量的消费者关于产品与服务的观点,在实际应用中,识别这些观点的原因具有重要的实践意义[1]。一方面,商家可以从消费者对产品与服务的评论中获得反馈信息来进行改进和创新,从而在市场中赢得竞争优势;另一方面,消费者可以从评论中获得更多产品与服务细节的信息,从而更好地进行消费决策。然而,评论文本的非结构化使得人工处理海量的评论变得十分困难,因此观点挖掘(也被称为情感分析或评论挖掘)技术受到学界与工业界的广泛关注。

观点挖掘是利用自然语言和文本处理技术,从大型文本数据集中识别和提取主观信息的过程[2]。传统的文本挖掘侧重于事实分析,而观点挖掘涉及到人们对产品、组织、主题及其他方面的观念、评价和情感,侧重于行为和态度分析。对于包含情感的评论文本,则需要细粒度的分析技术,即方面级观点挖掘。基于方面的观点挖掘旨在检测文本社交媒体流中各个目标方面对应的情感极性,为进一步识别用户的情感倾向提供了一种准确、全面的观点挖掘模型[3]。然而,当前细粒度的方面级观点挖掘技术更多关注方面抽取与方面情感分类[4],忽略了评论中更有价值的观点原因信息。

针对文本分类和评论信息抽取方法存在的不足,本文提出了一个基于酒店领域预训练语言模型的观点原因句分类方法。在预训练语言模型ERNIE(Enhanced Representation Through Knowledge Integration)[5]自有预训练数据集的基础上增加一个额外的酒店领域语料库,使用Devlin等[6]提出的多阶段知识掩码策略的掩码语言模型(Mask Language Model,MLM)和融合情感知识的下一句预测(Next Sentence Prediction,NSP)在预训练语料上提取文本特征,使模型熟悉酒店领域的“行话”,然后利用BiLSTM模型融合所有特征并识别包含观点原因的评论。

2 文献综述

2.1 无监督评论信息抽取

无监督的评论信息抽取方法一般基于规则或主题模型。基于规则的方法主要是利用文本的句法、语法信息和相关词库来挖掘评论中符合一定规则的词作为方面词或情感词。Hu等[7]利用关联规则抽取评论中高频出现的名词和名词短语作为方面,抽取接近这些方面的形容词作为情感词。Qiu等[8]提出一种双重传播方法,利用情感词和方面之间的句法关系以及情感词和方面本身来抽取新的情感词。Lakkaraju等[9]首次利用句法和语义相关性从评论中抽取方面和情感词。Li等[10]利用PMI-IR(Pointwise Mutual Information-Information Retrieval)增强基于频率的方法,通过网络搜索度量候选方面与目标实体的语义相似性,同时扩展了RCut(Rank-Based Thresholding)方法用于学习候选方面的阈值。周清清等[11]针对传统的基于频率的抽取方法会遗漏较多方面的问题,提出一种基于词向量的聚类方法,该方法通过高频名词筛选出种子方面,然后应用深度学习方法得到词向量并基于词向量聚类发现更多方面。

主题模型考虑上下文语义之间的关系,对文档中隐含的主题进行建模。基于主题模型的方法无需依赖人工制定的语言规则,能发现文本中的登录词。Andrzejewski等[12]提出的DF-LDA(Dirichlet Forest Prior in a Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)框架中使用了一种新的狄利克雷森林先验整合领域知识,相对于经典的LDA方法,该模型能识别更多方面。Lin等[13]提出一种新的基于LDA的概率模型框架JST(Joint Sentiment-Topic),该模型可以从文本中同时识别方面与情感词。Luo等[14]针对以往研究很少考虑实体和评级的问题,提出一个四元的PLSA(Probability Latent Semantic Analysis)从评论中抽取特征词。

2.2 有监督评论信息抽取

基于机器学习和深度学习的信息抽取方法一般是在隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)模型上做变化,其过程可以视为一个序列标注任务。Jin等[15]提出一种基于词汇化HMM提取方面和情感词的机器学习框架,将词性、上下文等语言特征整合到HMM中进行自动学习。Li等[16]提出一个具有两个LSTM(Long Short-Term Memory)的方面抽取框架,其中两个LSTM可以进行交互学习,使得模型具有扩展记忆与神经记忆。Wu等[17]提出一种混合无监督方法来抽取方面,使用语言规则提取名词短语块并将其作为候选方面,将这些带有候选方面的文本用作伪标注数据来训练一个GRU(Gated Recurrent Unit)网络以进行方面抽取。Yu等[18]提出一个用于方面与情感词的联合抽取方法,该方法通过一个多任务神经网络隐式地学习方面与情感词之间的关系,同时通过一个全局推理方法显式地建模方面与情感词的句法约束。深度学习方法普遍能取得比其他方法更好的效果,但也需要大量的标注数据进行训练,人工成本高。

目前最新的文本分类和信息抽取方法是基于预训练语言模型的方法,它能通过预训练加微调的方式克服一词多义的问题,输出更适合上下文的表示,有效提升模型效果。Devlin等[6]提出的BERT(Bidirectional Encoder Representations from Transformers)含MLM和NSP两个预训练任务,通过这两个任务在大规模语料上预训练学习语言知识并应用于特定的下游任务,克服了Word2Vec[19]方法在产生词向量时未考虑上下文的问题,解决了不同语境下词的歧义问题。另外,不同于ELMo(Embedding Language Model)[20]仅为下游任务提供训练好的固定词向量而无法改变网络参数,BERT的参数可以在进行下游任务时微调,实验表明其微调的方式非常有效,BERT在多项自然语言处理任务上都取得了非常好的效果[21-23]。但BERT的预训练仅根据上下文去预测词的信息,缺乏对更大语义单元的建模,这个问题在中文领域更加明显。针对BERT的不足,Sun等[5]提出的ERNIE能通过多阶段知识掩码策略学习海量语料中实体和短语级的先验知识,相比于BERT对文本中的原始语言信号进行建模,ERNIE对整个语义知识单元进行建模,增强了对语言的表示能力。此外,ERNIE引入了多源数据知识,利用对话反应损失(Dialogue Response Loss)学习对话的隐式关系,通过学习判断多轮对话的真实性进一步增强了模型的语义表示能力。然而,ERNIE的自有预训练语料不具有针对性,在做不同领域的文本分析任务时泛化能力不够,因此本文针对酒店领域的在线评论,提出DERNIE模型,通过额外的预训练语料使模型学习到酒店领域的知识,更好地提取特征。

3 基于两个预训练任务的观点原因识别模型

本文的目的是基于ERNIE模型,在ERNIE自有的预训练语料库基础上额外增加酒店领域的训练语料,使用多阶段知识掩码MLM和融合情感知识的NSP两个预训练任务对酒店在线评论经过预训练提取特征,并通过完形填空实验证明自构预训练语料对文本特征提取的有效性。将基于酒店领域的ERNIE预训练模型记为DERNIE,在此基础上,根据观点原因句分类(Opinion Reason Sentence Classification,ORSC)任务的特点提出基于酒店领域的评论观点原因识别模型(DERNIE-BiLSTM),并且通过人工标注的方式构建ORSC数据集。此外,本文也考虑了经典深度学习方法,并基于ORSC数据集使用多个预训练模型提取特征构造分类方法。本文的总体设计如图1所示,目的是通过对比DERNIE-BiLSTM与TextCNN[24]、BERT-BiLSTM和ERNIE-BiLSTM的观点原因句识别结果来分析各模型的好坏。

图1

图1   观点原因识别模型

Fig.1   The Opinion Reason Classification Model


3.1 ERNIE模型

相比于BERT对文本中的原始语言信号进行建模,ERNIE能通过多阶段知识掩码策略学习海量语料中实体和短语级的先验知识,从而对更大语义单元建模,增强其语言表示能力。本文以中文句子为例,设计了BERT和ERNIE掩码策略的对比图,如图2所示,BERT通过“武”、“汉”、“湖”、“的”等字的局部共现,可以判断出被掩盖的“北”字,但在这个过程中模型没有学习到更大语义单元的“武汉”、“湖北”相关的知识。而ERNIE通过掩盖文本中的实体和词语能隐式地学习到“武汉”、“湖北”、“英雄”等词的语义以及它们之间的相关关系。此外,ERNIE本身的输入还是基于字的,这使得模型的使用不需要依赖其他词法工具。

图2

图2   BERT与ERNIE不同的掩码策略

Fig.2   The Different Mask Strategies of BERT and ERNIE


多阶段的知识掩码策略无法对整句话很好地建模,而本文构建的文本分类任务需要获得整句话的语义表示来分类。因此需要进行NSP任务,本文设计的NSP过程如图3所示,模型输入的两个句子有50%的可能性是一段评论中连续的两个句子(正例样本),有50%的可能性是来自不同评论的两个句子(负例样本)。在预训练中,模型需要预测输入的两个句子是否连续。由于评论文本并没有严格的上下文关系,仅让模型判断两句评论是否连续有一定的难度,因此本文在预训练选择负例样本时的选择策略是:以一定的概率选择不同情感倾向的两个句子。例如将“酒店服务人员态度很好,准时接送机。”和“服务员不行,爱答不理。”两句评论组成一个负例,让模型判断这两个句子的情感是否一致。这更有利于模型的收敛,同时也让模型隐式地学习了评论中的情感知识,使模型能更好地处理评论相关的任务。

图3

图3   下一句预测模型

Fig.3   Prediction Model for the Next Sentence


3.2 基于DERNIE模型的特征提取

ERNIE在预训练数据集上沿用了BERT的中文维基百科,并且在此基础上加入百度自有的数据集:百度百科、百度新闻和百度贴吧。DERNIE模型是在ERNIE的预训练数据集上额外添加了酒店在线预订平台上抓取的数据量百万级别的语料库,其他过程与ERNIE模型一致,DERNIE模型结构如图4所示。经过预处理后,酒店中文在线评论语料库与ERNIE自有的数据集一起进行NSP+MLM预训练任务来提取文本特征,使模型额外习得酒店领域的知识。此外,本文通过完形填空[25]实验来评估预训练模型DERNIE、ERNIE和BERT在酒店中文在线评论上的预测结果,从而证明自构领域语料库的必要性。

图4

图4   DERNIE模型结构

Fig.4   The Structure of DERNIE Model


ERNIE和BERT一样,使用一个多层双向的Transformer编码器[26]作为主体结构。相比于LSTM模型[27]逐步地处理序列,Transformer依靠自注意力 (Self-Attention)机制为序列中的每一个字编码上下文信息,因此它可以实现大规模的并行计算,这既加速了运算速度,也使Transformer可以堆叠得更深,学习到更深层次的文本特征。

对于给定输入文本序列s=t1,t2,,tN,可以将ti视作一个中文里的汉字,例如,图4s为“没有拖鞋,环境差。”,经过ERNIE输入层的转换得到输入向量x=x1,x2,,xN,其中xi表示ti的输入向量。将x输入ERNIE,经过ERNIE主体结构在其自有数据集和酒店领域的预训练语料上进行多任务预训练后,取最后一层Transformer的状态h=h1,h2,,hN为输入文本的特征。这些特征的每一个向量都编码了上下文的信息,可以被输入到其他网络进行如文本分类、序列标注等自然语言处理相关的任务。

3.3 BiLSTM模型

对于序列数据,循环神经网络(Recurrent Neural Network,RNN)是一个经典的模型,但其由于梯度消失和梯度爆炸问题无法学习到序列中的长期依赖,因此在自然语言处理任务中常使用的是LSTM模型。与RNN类似,LSTM模型在每一步都接受上一步的输出作为输入,通过记忆单元和门的结构存储长期依赖信息,改善了RNN中存在的长期依赖问题。

LSTM模型的运算是单向的,但是在语言处理中编码一个词的含义需要考虑上下文的信息,因此有必要使用两个LSTM模型对从前往后的信息和从后往前的信息分别建模,组合形成双向的长短期记忆网络(BiLSTM)模型。本文参考BiLSTM-CRF模型[28],采用的BiLSTM的结构如图5所示,输入向量为x,经过前向LSTM模型得到输入的前向表示hR,同时经过后向LSTM模型得到输入的后向表示hL,将每个位置的前向表示与后向表示拼接在一起得到BiLSTM模型最终的输出h,由于输出综合了前后LSTM模型的信息,所以BiLSTM模型包含更丰富的信息,能取得更好的分类效果。

图5

图5   BiLSTM模型结构

Fig.5   The Structure of BiLSTM Model


3.4 DERNIE-BiLSTM的观点原因句分类模型

尽管DERNIE能通过预训练语料获得酒店评论的先验语言知识,但直接用于分类会使模型无法充分利用评论中的观点原因片段信息,例如在“没有拖鞋环境差”这句评论中,“没有拖鞋”这个观点原因片段直接决定了该句评论应该被分类为观点原因句,但模型中特殊标记“[CLS]”的表示中没有针对性地对该片段进行建模,因此需要使用BiLSTM模型融合DERNIE输出的所有特征。

DERNIE-BiLSTM模型结构如图6所示,对于给定的输入序列s=t1,t2,,tN,经过ERNIE输入层的转换后得到输入向量x=x1,x2,,xN,输入向量经过DERNIE处理后得到Transformer编码器最后一层的隐藏状态h=h1,h2,,hN,其中hi的维度为H,H是ERNIE隐藏层的维度,取值为768。整个序列的特征h被传入BiLSTM网络进行融合运算,得到BiLSTM模型的隐藏层状态h˜=(h˜1,h˜2,,h˜N),其维度的设置与ERNIE一致,经过前向LSTM和后向LSTM后,特征被拼接得到最后维度为2H的隐藏层状态h˜i,其最后一个时刻的状态h˜N被用作分类。

图6

图6   DERNIE-BiLSTM模型结构

Fig.6   The Structure of DERNIE-BiLSTM Model


经过BiLSTM模型的序列化处理后,h˜N融合了DERNIE提取出的所有特征并被传入FC层用于计算得分。本文基于BiLSTM-CRF[28],提出得分向量φR1×K的计算方法如公式(1)所示。

φ=h˜NWφ+bφ

其中,WφR2H×K,WφR1×K,K是分类类别数。由于ORSC是一个二分类任务,所以K值为2,φ表示当前文本分别属于每个类别的得分。通过Softmax回归计算输入序列s属于第i个类别的概率值,如公式(2)所示。

P(i|s,θ)=exp(φi)jKexp(φj)

其中,θ是整个模型的参数,s是输入的文本序列,假设s的正确类别是第n个类别,则模型的训练过程就是最大化n的对数似然概率logP(n|s,θ)

DERNIE-BiLSTM的训练和超参数调优过程如算法1所示。在每个回合(epoch)中,将训练数据拆分为若干个批次尺寸(batch_size),每次将一个batch_size的数据传入模型进行训练,在训练的每一个步数(step)中,首先通过领域ERNIE-BiLSTM模型的前向传播得到损失值,然后通过模型的反向传播得到所有参数的梯度值,最后根据梯度值更新模型的所有参数。

算法1: DERNIE-BiLSTM的训练过程

① for each epoch do

② for each batch_size do

③ 1) DERNIE model forward pass

④ 2) BiLSTM layer forward pass

⑤ 3) calculate the loss

⑥ 4) BiLSTM layer backward pass

⑦ 5) DERNIE model backward pass

⑧ 6) update parameters

⑨ end for

⑩ end for

4 实验与分析

4.1 实验数据与预处理

从酒店在线预订平台携程旅行网上抓取包括武汉、北京、成都、杭州等在内的多个城市的三星级及以下酒店在线评论数据。这个星级区间的酒店和在线评论相对较多,正负面评论分布相对均衡,样本丰富度高。每个数据样本包含用户ID、评分、评论文本等字段,总计抓取2 148 386条评论。本文对原始评论数据预处理的步骤包括:删除不包含汉字的评论和特殊字符;规范化句子中的换行符、空格与标点符号;将句子中的英文转化为小写,汉字转化为简体;去重;样本均衡化处理。预处理完成后得到1 016 410条评论。基于ERNIE模型,通过对预处理后的酒店评论语料进行两个预训练任务来提取文本特征,使模型习得酒店领域的知识。

ORSC是一个新任务,没有相关的公开数据集,因此本文构建了一个ORSC数据集来验证所提出的DERNIE-BiLSTM模型。从预处理后的酒店预训练语料中筛选并人工标注了7 000条评论,其中包括3 500条包含观点原因的评论和3 500条不包含观点原因的评论,部分标注数据如表1所示。针对ORSC任务,由于不包含观点原因的句子相对较短,包含观点原因的句子通常较长,为避免模型可能会根据句子长短来判断是否包括观点原因,本文构建数据集的句子长度都在64个字符及以下。考虑到ORSC数据集的数量分布均衡,以7∶3划分训练集和测试集,通过在测试集上的预测结果对比评价各模型的表现。

表1   ORSC数据集示例

Table 1  Examples of ORSC Dataset

类别评论
观点
原因句
1.服务人员未经同意擅自进入房间。
2.房间实在太小,二个人都无法并排走
3.无窗,面积很小,非常潮湿闷气,空调的水都是用大
矿泉水瓶接的厕所无完整隔断,导致房内更加潮湿。
但总体来说,住了一夜没有耽误行程,已经很ok了。
非观点
原因句
1.综合条件太差
2.帮朋友订的,不知道怎么样
3.楼下是洗浴,楼上不知道是什么,两三点钟的时候好多脚步声,上楼下楼的,严重影响休息。体验很差!

新窗口打开| 下载CSV


4.2 实验设计

在两个预训练任务中,将MLM任务的损失记为LMLM,NSP任务的损失记为LNSP,则总损失为L=LMLM+LNSP,在训练过程中模型的目标是最小化总损失L。两个预训练任务的超参数调优过程如算法2所示,由于预训练语料的数据量是百万级别的,本文不做多个回合(epoch)循环训练数据,仅以训练模型的步数(step)作为计量单位,在每一个步数中,将一个批次尺寸(batch_size)的数据输入模型,然后运行DERNIE的前向运算,计算出MLM任务和NSP任务的总损失L,根据损失计算模型所有参数的梯度,最后根据梯度和学习率更新所有参数。本文采用百度开源的预训练好的语言模型ERNIEBASE中文版作为主体结构,使用ERNIEBASE的默认参数作为DERNIE的初始化参数。由于ERNIE的预训练时间比较长且对显存的压力比较大,在预训练时采用混合精度[29]技术减少显存开销和提高训练速度。

算法2: DERNIE的参数调优过程

① for each batch_size do

② 1) DERNIE model forward pass

③ 2) calculate the total lossL

④ 3) DERNIE model backward pass

⑤ 4) update parameters

⑥ end for

为验证本文提出的观点原因句分类模型的有效性,选择以下方法进行对比实验:TextCNN、DERNIE、BERT-BiLSTM、ERNIE-BiLSTM、DERNIE-BiLSTM。其中,TextCNN通过将词向量拼接形成矩阵,然后在词的方向上进行1维卷积提取文本的局部特征,并将特征合并来进行分类;DERNIE没有使用BiLSTM模型进行特征融合,用第一个特殊标记“[CLS]”的隐藏层状态进行分类;BERT-BiLSTM使用BERT提取文本特征,通过BiLSTM模型融合特征来分类。ERNIE-BiLSTM使用ERNIE提取文本特征,通过BiLSTM模型融合特征来分类;DERNIE-BiLSTM先用酒店领域预训练语言模型DERNIE提取文本特征,然后使用BiLSTM模型融合特征输出分类结果。应用了预训练语言模型ERNIE或者BERT的方法不需要单独训练字向量,但TextCNN需要提前预训练的字向量来提升模型效果,因此使用经过预处理后的酒店评论语料作为训练字向量的语料,利用Word2Vec中的Skip-gram模型训练字向量。本文最终确定的超参数均是对应的方法在测试集上表现最佳的超参数,具体情况如表2所示。

表2   ORSC实验超参数设置

Table 2  Hyperparameters Settings of ORSC Experiment

超参数TextCNNDERNIEBERT-BiLSTMERNIE-BiLSTMDERNIE-BiLSTM
character embedding dimensions100768768768768
hidden dimensions100768768768768
max sequence length6464646464
batch_size3216323232
learning rate1e-33e-55e-53e-55e-5
epochs61171320
dropout0.50.10.10.10.1

新窗口打开| 下载CSV


4.3 评价指标

本文目标是识别ORSC数据集中的观点原因句,本质上是二分类任务,因此使用分类指标准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值作为实验的评估指标,计算方法如公式(3)-公式(6)所示。

Accuracy=TP+TNTP+TN+FP+FN
Precision=TPTP+FP
Recall=TPTP+FN
F1=21/Precision+1/Recall

其中,TP(True Positive)表示将正例预测为正例的个数,TN(True Negative)表示将负例预测为负例的个数,FP(False Positive)表示将负例预测为正例的个数,FN(False Negative)表示将正例预测为负例的个数。

4.4 实验结果与分析

(1) 预训练任务的结果与分析

DERNIE预训练期间总损失L的变化情况如图7所示,由于本文是基于ERNIE官方训练好的模型做的两个预训练任务,ERNIE在初始化时已经具备了一定的语言知识,所以L在前期收敛快,模型学习效果好。因此,在预训练时,模型对酒店领域数据的学习非常快。

图7

图7   预训练过程的损失L变化

Fig.7   Changes of Loss L in the Pre-training Process


为验证预训练任务是否使DERNIE具备了酒店评论领域的知识,证明所抓取语料库的有效性,进行完形填空[25]实验,掩盖评论样本中的某个词,使用模型预测被掩盖的词。同时对比了三种语言模型在完形填空实验上的表现,其中BERT是谷歌官方预训练的中文模型,预训练语料来自维基百科,预训练任务为MLM和NSP;ERNIE是百度官方预训练的中文模型,预训练任务包括多阶段知识掩码MLM、NSP和DLM;本文提出的DERNIE在百度官方模型的基础上,使用酒店评论语料进行多阶段知识掩码MLM和融合情感知识的NSP预训练,使模型习得酒店领域的知识。

完形填空的部分预测结果如表3所示。在例1中,BERT的预测结果不是一个正确的词,因为基于字的预训练方式导致BERT学习到的词级知识比较少,无法正确预测。相对而言,ERNIE具备更多词级的知识,预测出来的是一个完整的词,这证明了多阶段知识掩码策略的有效性,但ERNIE预测出来的词与酒店领域没有关系。DERNIE的预测结果则比较合适,“服务态度”是酒店领域的常用词,这表明DERNIE已经具备了一定的领域知识,基于酒店领域预训练是有效的。例2和例3类似,BERT和ERNIE预测出的词与酒店相关性比较小,而DERNIE预测出来的都是酒店领域的常用词。从例4和例5中可以看到,DERNIE不仅能准确预测出酒店的方面词,对于酒店评论中常见的情感词“一般”和观点原因“离火车站近”也能准确预测。完形填空的实验证明了在酒店领域的知识推理方面,预训练后的模型DERNIE表现比ERNIE好,这侧面证明了本文爬取的酒店领域训练语料是有效的。

表3   完形填空实验结果

Table 3  Results of Cloze Experiment

例子样本BERT预测ERNIE预测DERNIE预测
1很好,主动给我们介绍附近的景点。服台人务朋友关系服务态度
2卫生差, 有小虫子咬得却都是疱虽然虽使床上
3极差,住的人三六九等,半夜被吵醒多次睡眠环境隔音
4硬件设施,和其他酒店差距有点大!不般方面一般
5位置就是离 近,卫生很差酒店很学校很火车站

新窗口打开| 下载CSV


(2) DERNIE-BiLSTM的结果与分析

本文采用的5种观点原因句识别模型在测试数据集上的表现如表4所示。DERNIE-BiLSTM分类模型在各个指标上的结果均高于94%,优于其他模型。整体来看,应用了预训练语言模型的方法效果都要好于经典的深度学习方法TextCNN,因为预训练语言模型能学习大量的先验语言知识。预训练语言模型输出的字向量是上下文相关的,能够根据每个字的上下文编码字的语义,而传统的Word2Vec方法得到的词向量是上下文无关的,不能应对一词多义的情况,所以基于预训练语言模型提取的文本特征能达到更好的分类效果。DERNIE-BiLSTM的分类准确率和F1值均高于单独应用DERNIE做分类,因为DERNIE仅用第一个特殊标记“[CLS]”的隐藏层状态进行分类,DERNIE-BiLSTM则能通过BiLSTM模型融合DERNIE输出的所有特征,更好地捕获到评论句子中的观点原因片段信息。

表4   ORSC实验结果

Table 4  Results of ORSC Experiment

方法Accuracy (%)Precision (%)Recall (%)F1-score (%)
TextCNN90.8190.6491.0790.86
DERNIE91.3392.9189.5591.20
BERT-BiLSTM92.5792.2792.9792.62
ERNIE-BiLSTM94.1093.8694.4094.13
DERNIE-BiLSTM94.5794.0095.2594.62

新窗口打开| 下载CSV


BERT-BiLSTM、ERNIE-BiLSTM和DERNIE-BiLSTM具有相同的网络结构,不同的是它们采用不同的预训练语言模型提取文本特征,应用了ERNIE的预训练模型分类准确率和F1值都高于BERT,因为ERNIE在预训练阶段采用多阶段知识掩码MLM,因此相较于BERT基于中文汉字进行预训练的方式,ERNIE能够进一步建模中文词语和实体的语义与关系,对于中文文本的表示能力更强。相比于ERNIE-BiLSTM,DERNIE-BiLSTM取得了更好的效果,这是因为经过基于酒店领域数据的预训练,模型学习到了更多酒店领域的知识,熟悉了特定的语言环境,能更好地提取特征,这也证明了本文自构数据集的有效性。

5 结语

在线评论是用户生成内容的重要组成部分,对于商家和消费者都有十分重要的意义。为了从海量评论中有效地识别出观点原因,本文在携程旅行网上抓取了两百多万条在线评论,经过预处理后构造预训练语料,并通过人工标注构建了一个ORSC训练语料库。基于此,本文提出一个评论中的观点原因识别模型,针对目前文本分类和评论信息抽取方法存在的不足,引入ERNIE作为基础语言模型,在预训练语料上进行了两个预训练任务来提取特征,并通过完形填空对比实验证明了两个预训练任务的有效性。使用BiLSTM模型融合特征输出分类结果,通过多种方法的对比,验证了模型的有效性。

现有研究一般将重点放在对评论中方面的抽取以及方面情感分类上,一定程度上忽略了评论中更有价值的观点原因信息。本文设计的DERNIE-BiLSTM分类模型利用酒店领域的评论数据来习得相关领域的语言背景,在观点原因句识别上具有更高的精度。DERNIE-BiLSTM是基于深度学习的模型,对不同领域的分类任务具有通用性。然而,基于领域数据预训练语言模型对语料库数据量有一定的要求,本文爬取了百万级数据量的预训练语料,这对计算速度和效率会产生一定的影响,未来将研究模型蒸馏等方法减小模型的参数量,提高运算效率。

作者贡献声明

张治鹏:提出研究思路,设计研究方案,进行实验,起草论文;

毛煜升:采集、清洗和分析数据;

张李义:论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

[1] 张治鹏. 观点原因句分类数据集. DOI:10.57760/sciencedb.j00133.00012.

[2] 张治鹏. 酒店领域的预训练语料. DOI:10.57760/sciencedb.j00133.00012.

参考文献

Li G, Liu F.

Sentiment Analysis Based on Clustering: A Framework in Improving Accuracy and Recognizing Neutral Opinions

[J]. Applied Intelligence, 2014, 40(3): 441-452.

DOI:10.1007/s10489-013-0463-3      URL     [本文引用: 1]

Jeyapriya A, Selvi C S K.

Extracting Aspects and Mining Opinions in Product Reviews Using Supervised Learning Algorithm

[C]// Proceeding of the 2nd International Conference on Electronics and Communication Systems. IEEE: 548-552.

[本文引用: 1]

Abas A R, El-Henawy I, Mohamed H, et al.

Deep Learning Model for Fine-Grained Aspect-Based Opinion Mining

[J]. IEEE Access, 2020, 8: 128845-128855.

DOI:10.1109/ACCESS.2020.3008824      URL     [本文引用: 1]

徐福, 黄贤英, 蒋兴渝, .

用于方面提取的软原型增强自适应损失模型

[J]. 计算机应用研究, 2021, 38(11): 3310-3315.

[本文引用: 1]

( Xu Fu, Huang Xianying, Jiang Xingyu, et al.

Soft Prototype Enhanced Adaptive Loss Model for Aspect Extraction

[J]. Application Research of Computers, 2021, 38(11): 3310-3315.)

[本文引用: 1]

Sun Y, Wang S H, Li Y K, et al.

ERNIE: Enhanced Representation Through Knowledge Integration

[OL]. arXiv Preprint, arXiv: 1904.09223.

[本文引用: 2]

Devlin J, Chang M W, Lee K, et al.

BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

[OL]. arXiv Preprint, arXiv: 1810.04805.

[本文引用: 2]

Hu M Q, Liu B.

Mining and Summarizing Customer Reviews

[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2004: 168-177.

[本文引用: 1]

Qiu G, Liu B, Bu J J, et al.

Expanding Domain Sentiment Lexicon Through Double Propagation

[C]// Proceedings of the 21st International Joint Conference on Artificial Intelligence. 2009: 1199-1204.

[本文引用: 1]

Lakkaraju H, Bhattacharyya C, Bhattacharya I, et al.

Exploiting Coherence for the Simultaneous Discovery of Latent Facets and Associated Sentiments

[C]// Proceedings of the 11th SIAM International Conference on Data Mining. 2011: 498-509.

[本文引用: 1]

Li S, Zhou L N, Li Y J.

Improving Aspect Extraction by Augmenting a Frequency-Based Method with Web-Based Similarity Measures

[J]. Information Processing & Management, 2015, 51(1): 58-67.

DOI:10.1016/j.ipm.2014.08.005      URL     [本文引用: 1]

周清清, 章成志.

在线用户评论细粒度属性抽取

[J]. 情报学报, 2017, 36(5): 484-493.

[本文引用: 1]

( Zhou Qingqing, Zhang Chengzhi.

Fine-Grained Aspect Extraction from Online Customer Reviews

[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(5): 484-493.)

[本文引用: 1]

Andrzejewski D, Zhu X J, Craven M.

Incorporating Domain Knowledge into Topic Modeling via Dirichlet Forest Priors

[C]// Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 25-32.

[本文引用: 1]

Lin C H, He Y L, Everson R, et al.

Weakly Supervised Joint Sentiment-Topic Detection from Text

[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(6): 1134-1145.

DOI:10.1109/TKDE.2011.48      URL     [本文引用: 1]

Luo W J, Zhuang F Z, Zhao W Z, et al.

QPLSA: Utilizing Quad-Tuples for Aspect Identification and Rating

[J]. Information Processing & Management, 2015, 51(1): 25-41.

DOI:10.1016/j.ipm.2014.08.004      URL     [本文引用: 1]

Jin W, Ho H H.

A Novel Lexicalized HMM-Based Learning Framework for Web Opinion Mining

[C]// Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 465-472.

[本文引用: 1]

Li X, Lam W.

Deep Multi-Task Learning for Aspect Term Extraction with Memory Interaction

[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2886-2892.

[本文引用: 1]

Wu C H, Wu F Z, Wu S X, et al.

A Hybrid Unsupervised Method for Aspect Term and Opinion Target Extraction

[J]. Knowledge-Based Systems, 2018, 148: 66-73.

DOI:10.1016/j.knosys.2018.01.019      URL     [本文引用: 1]

Yu J F, Jiang J, Xia R.

Global Inference for Aspect and Opinion Terms Co-Extraction Based on Multi-Task Neural Networks

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(1): 168-177.

DOI:10.1109/TASLP.2018.2875170      URL     [本文引用: 1]

Peters M E, Neumann M, Iyyer M, et al.

Deep Contextualized Word Representations

[OL]. arXiv Preprint, arXiv: 1802.05365.

[本文引用: 1]

Chen Q, Zhuo Z, Wang W.

BERT for Joint Intent Classification and Slot Filling

[OL]. arXiv Preprint, arXiv: 1902.10909.

[本文引用: 1]

Li X Y, Zhang H, Zhou X H.

Chinese Clinical Named Entity Recognition with Variant Neural Structures Based on BERT Methods

[J]. Journal of Biomedical Informatics, 2020, 107: 103422.

DOI:10.1016/j.jbi.2020.103422      URL     [本文引用: 1]

Wang Q C, Liu P Y, Zhu Z F, et al.

A Text Abstraction Summary Model Based on BERT Word Embedding and Reinforcement Learning

[J]. Applied Sciences, 2019, 9(21): 4701.

DOI:10.3390/app9214701      URL     [本文引用: 1]

Wang X L, Xu H, Sun X M, et al.

Combining Fine-Tuning with a Feature-Based Approach for Aspect Extraction on Reviews

[C]// Proceedings of the 2020 AAAI Conference on Artificial Intelligence, 2020: 13951-13952.

[本文引用: 1]

Kim Y.

Convolutional Neural Networks for Sentence Classification

[OL]. arXiv Preprint, arXiv: 1408.5882

[本文引用: 1]

Taylor W L.

“Cloze Procedure”: A New Tool for Measuring Readability

[J]. Journalism Quarterly, 1953, 30(4): 415-433.

DOI:10.1177/107769905303000401      URL     [本文引用: 2]

Vaswani A, Shazeer N, Parmar N, et al.

Attention is All You Need

[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.

[本文引用: 1]

Hochreiter S, Schmidhuber J.

Long Short-Term Memory

[J]. Neural Computation, 1997, 9(8): 1735-1780.

PMID:9377276      [本文引用: 1]

Learning to store information over extended time intervals by recurrent backpropagation takes a very long time, mostly because of insufficient, decaying error backflow. We briefly review Hochreiter's (1991) analysis of this problem, then address it by introducing a novel, efficient, gradient-based method called long short-term memory (LSTM). Truncating the gradient where this does not do harm, LSTM can learn to bridge minimal time lags in excess of 1000 discrete-time steps by enforcing constant error flow through constant error carousels within special units. Multiplicative gate units learn to open and close access to the constant error flow. LSTM is local in space and time; its computational complexity per time step and weight is O(1). Our experiments with artificial data involve local, distributed, real-valued, and noisy pattern representations. In comparisons with real-time recurrent learning, back propagation through time, recurrent cascade correlation, Elman nets, and neural sequence chunking, LSTM leads to many more successful runs, and learns much faster. LSTM also solves complex, artificial long-time-lag tasks that have never been solved by previous recurrent network algorithms.

Huang Z, Xu W, Yu K.

Bidirectional LSTM-CRF Models for Sequence Tagging

[OL]. arXiv Preprint, arXiv: 1508.01991.

[本文引用: 2]

Micikevicius P, Narang S, Alben J, et al.

Mixed Precision Training

[OL]. arXiv Preprint, arXiv: 1710.03740.

[本文引用: 1]

/