基于依存关系嵌入与条件随机场的商品属性抽取方法*

doi:10.11925/infotech.2096-3467.2019.1006

基于依存关系嵌入与条件随机场的商品属性抽取方法^*

李成梁, 赵中英^,^,, 李超, 亓亮, 温彦

山东科技大学计算机科学与工程学院青岛 266590

Extracting Product Properties with Dependency Relationship Embedding and Conditional Random Field

Li Chengliang, Zhao Zhongying^,^,, Li Chao, Qi Liang, Wen Yan

College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China

通讯作者: 赵中英,ORCID：0000-0002-5880-0225,E-mail:zzysuin@163.com。

收稿日期: 2019-09-5 修回日期: 2020-02-18 网络出版日期: 2020-05-25

基金资助:

*本文系国家自然科学基金重点项目子课题“大数据环境下的复杂网络行为分析”.  61433012
山东省自然科学基金项目“动态社交网络中用户群体行为的多尺度分析及其与网络拓扑的协同演化机制研究”.  ZR2018BF013
教育部人文社会科学青年基金项目“大数据环境下基于学习者行为挖掘的个性化用户建模研究”的研究成果之一.  17YJCZH262

Received: 2019-09-5 Revised: 2020-02-18 Online: 2020-05-25

摘要

【目的】 基于依存关系嵌入设计多种单词表示,获取单词的潜在语义特征,提高条件随机场对评论中商品属性的抽取能力。【方法】 提出一种基于依存关系嵌入与条件随机场的商品属性抽取方法。基于单词属性、单词依存关系及其词嵌入形式构建三类单词语义信息,包括：基本语义信息、结构语义信息和类别语义信息;结合三类语义信息与条件随机场模型抽取商品的属性。【结果】 与不加入语义信息相比,融合三类语义信息的方法在准确率上提高3.97%;与已有的代表性模型相比,本文方法在F₁值上最多提高7.65%。【局限】 情感词和属性关系紧密,未对评论中属性和情感词之间的关系进行深入挖掘。【结论】 本文方法能够有效地抽取商品评论数据的属性,为基于属性的细粒度情感分析奠定良好的基础。

关键词： 属性抽取 ; 依存关系 ; 条件随机场 ; 评论分析 ; 关系嵌入

Abstract

[Objective] This paper designs multiple word representation methods, aiming to obtain the latent semantic features and extract product properties from reviews.[Methods] First, we used word properties, dependency relationship and embedding techniques to construct three types of word representations, which included basic, structural and category semantic information. Then, we applied conditional random field model to extract product properties with these semantic information.[Results] The accuracy of the proposed method was 3.97% higher than that of the DepREm-CRF.Its F₁ value was up to 7.65% better than the popular ones.[Limitations] More research is needed to investigate the relationship between online sentiments and properties.[Conclusions] The proposed method is able to effectively extract properties from product reviews, and lays good foundation for fine-grained sentiment analysis research.

Keywords： Aspect Extraction ; Dependency Relationship ; Conditional Random Field ; Comments Analysis ; Relationship Embedding

PDF (1028KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李成梁, 赵中英, 李超, 亓亮, 温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法^*. 数据分析与知识发现[J], 2020, 4(5): 54-65 doi:10.11925/infotech.2096-3467.2019.1006

Li Chengliang, Zhao Zhongying, Li Chao, Qi Liang, Wen Yan. Extracting Product Properties with Dependency Relationship Embedding and Conditional Random Field. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 54-65 doi:10.11925/infotech.2096-3467.2019.1006

1 引言

在线购物网站积累了大量的商品评论,这有助于消费者了解商品的真实信息,进而购买最符合自己需求的商品;同时,商家可以根据评论中的用户反馈,对商品进行有针对性的改良。然而,商品评论在给消费者和商家带来便利的同时,也带来了额外的负担——需要花费大量的时间和精力阅读并理解评论中隐藏的商品属性以及消费者对该属性表达出的情感倾向。因此,消费者和商家都迫切需要一种自动化或半自动化的方法,可以在粗粒度的商品评论中快速获取细粒度的商品评价。

属性是用户在商品评论中的主要描述对象,通常由商品自身的属性信息构成。例如,在笔记本电脑的评论中,“the good battery life”、“it is of high quality”、“has a killer GUI”分别对“battery life”、“quality”、“GUI”做出积极的评价,“screen all dark”、“power light steady”则分别表达了消费者对“screen”、“power light”消极评价。因此,将属性应用于情感分析,有助于消费者或商家更加细粒度地了解商品的优点或缺点。然而,商品评论往往具有用词随意、语法结构混乱、内容简短等特点,这为属性的准确抽取提出了挑战。

条件随机场（Conditional Random Field, CRF）在属性抽取中取得显著效果,旨在将商品评论数据序列化,对原始文本序列和属性序列的联合概率分布进行建模,学习属性的特征表示,训练出可以识别商品属性的条件随机场模型。但是基于条件随机场的属性抽取方法仍然存在以下问题：

(1)忽略文本中丰富的语义信息^[1]。传统的条件随机场只考虑单词最基本的特征,例如词性、前一词、后一词,但是更丰富的单词语义特征有助于对属性进行更精准的抽取。

(2)评论数据内容复杂^[2]。条件随机场默认一条商品评论中有且只有一个属性,但是消费者往往对商品的多个属性进行评价,一条评论中只存在一个属性的假设会降低抽取精度。

为解决上述问题,本文提出一种基于依存关系嵌入与条件随机场(Dependency Relationship Embedding-Conditional Random Fields, DepREm-CRF)的商品属性抽取方法。主要贡献包括：

（1）提出一种新的语句级依存关系表现形式——依存关系子句。与已有的单词依存关系获取方法不同,在不破坏商品评论数据句意的前提下,对单词之间重要的共现关系进行突出表示。

（2）提出一种新的基于单词依存关系的词向量生成方法——依存关系嵌入。与已有词向量不同,在本文提出的词向量中,结构和依存关系方面更相近的单词具有更近的向量距离。

（3）提出三种新的单词特征表示方法——基本语义信息、结构语义信息、类别语义信息。与已有单词特征不同,本文设计的三种方法不仅考虑到了单词的一般属性,还量化了单词在文本中的结构属性。

2 相关工作

2.1 属性抽取任务

属性抽取是细粒度情感分析中一个新的研究方向,吸引了学术界和工业界诸多学者的研究兴趣。Hu等^[3]利用文本中单词之间的共现关系进行属性挖掘。Liu等^[4]设计文档-属性共现矩阵,给定候选特征词,基于矩阵和候选特征词的相似度划分属性。Ghadery等^[5]使用余弦相似度进行文本聚类,将标准化后的聚类结果作为属性。Zhang等^[6]利用单词特征相似度进行单词聚类,依据聚类结果确定属性。郭博等^[7]基于依存关系和词袋模型生成词向量,将该向量作为特征进行商品属性的抽取。李伟卿等^[8]使用人工标注和先验知识构建商品属性种子库,选取和种子单词相似度较高的候选属性作为属性预测结果。张震等^[9]通过词项生成概率对文本属性进行抽取。Poria等^[10]将常识、语法树等先验知识和情感词典相结合,从在线评论中抽取属性。一些传统的机器学习模型在属性抽取中也有较好的表现。彭云等^[11]根据先验知识获取三种语义关系,基于三种关系改进LDA模型,获取商品属性的概率分布。Mukherjee等^[12]设置种子单词,提出SAS和MESAS两种模型以发现用户表达的属性。Li等^[13]基于Bootstrapping方法在电子产品评论中抽取属性。Liu等^[14]使用自动学习规则进行属性抽取。周清清等^[15]构建候选属性词集,通过聚类和噪音过滤得到细粒度的产品属性集。在深度学习方面,Peng等^[16]结合LSTM模型学习得到的词向量和已有的文本序列,识别出文本中的属性。赵杨等^[17]使用Canopy和K-means进行特征聚类,对海淘APP中的属性进行抽取。Xu等^[18]设计通用嵌入和领域嵌入表示单词特征,并将其输入CNN模型进行属性抽取。

条件随机场^[19]可以解决词性标注、命名实体识别等问题,因此,有学者开始探索基于条件随机场的属性抽取。Xiang等^[20]将单词的词干特征和词性特征训练为词向量,将获得的特征输入至条件随机场中学习评论的属性;但是只考虑了单词本身的语义信息,并没有考虑单词在句子中体现出的结构信息。Luo等^[1]使用双向依赖网络学习文本的结构特征,并将特征输入至BiLSTM-CRF模型学习评论的序列特征并抽取评论中的属性。Yin等^[2]采用RNN提取出具有依赖关系的上下文并进行词嵌入,将其作为条件随机场的输入特征进行属性抽取。以上基于条件随机场的属性抽取方法只能学习到单词的一般特征,无法对单词的多义性、重要性等特殊特征进行量化,因此难以在评论文本中抽取出更多的商品属性。

2.2 依存关系嵌入

评论中的单词往往受到其他单词的影响,单词间的相互制约即为依存关系,例如,“set”和“computer”之间构成宾语关系,“applications”和“good”之间构成形容词修饰关系。同时,词向量解决了文本数值化计算的问题,提供了一个新的研究思路。Le等^[21]在Word2Vec的基础上加入段落向量生成Doc2Vec;Dhingra等^[22]针对社交网络中的文本提出Tweet2Vec;Moody^[23]结合主题模型和词嵌入模型提出LDA2Vec;曾庆田等^[24]提出一种对用户行为向量化表示的User2Vec。词嵌入模型已经在相关应用中取得成功,但仍存在过分考虑单词之间的相关性而不是关联性^[25]、受到窗口大小的限制^[26]、缺乏结构方面的表达能力等问题。这些问题制约了词嵌入模型在商品评论这一类关联性强、单词作用突出、非结构化文本中的有效应用。

针对上述问题,Levy等^[27]基于依存关系设计依存单词,获得具有结构性的词向量,但忽略了依存单词间的依赖关系,生成的词向量具有片面性;Zhao等^[28]设计子树嵌入（Subtree Embedding）并对其进行训练,得到包含单词结构关系的词向量,但该方法无法表示单词间复杂的关系,如环状结构等;Li等^[29]基于改进的依存关系量化公式,得到依存分值并基于分值训练词向量,但该模型忽略了单词之间的远近关系和紧密程度。

针对目前研究存在的问题,本文设计依存关系子句突出单词之间的关联关系,提出依存关系嵌入,语义接近的单词被映射到相近的向量空间中。同时,将基于依存关系得到的单词特征和词性、词形等特征进行组合,作为条件随机场的学习内容,新加入的特征包含丰富的单词结构语义和语法信息,可以提高条件随机场的属性抽取能力。

3 依存关系嵌入的条件随机场模型

3.1 DepREm-CRF模型总体结构

DepREm-CRF模型抽取商品评论中单词之间的依存关系,并基于单词的基本属性构建多种单词语义信息,条件随机场接收上述信息并准确地抽取商品属性。DepREm-CRF模型的总体框架如图1所示。本文使用的主要符号如表1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 DepREm-CRF模型框架

Fig.1 The Framework of DepREm-CRF

表1 主要符号及其含义

Table 1 The Notations and Descriptions

符号	含义
$D$	数据集
$S_{s}$	$D$ 中的第 $s$ 条评论
$w_{sn}$	第 $s$ 条评论中的第 $n$ 个单词
$w_{sn}^{pos}$	单词 $w_{sn}$ 的词性
$w_{sn}^{lemm}$	单词 $w_{sn}$ 的词形
$(w_{sm}, w_{sn})$	单词 $w_{sm}$ 和单词 $w_{sn}$ 之间存在依存关系
$w_{sn_w}$	单词 $w_{sn}$ 的依存关系权重
$G_{s}$	基于依存关系得到的第 $s$ 条评论的依存关系图
$SubSen t_{si}$	基于 $G_{s}$ 得到的第 $s$ 条评论的第 $i$ 条依存关系子句
$e_{w_{sn}}$	单词 $w_{sn}$ 的依存关系词向量
$C_{w_{sn}}^{1}$	单词 $w_{sn}$ 的依存关系词向量的聚类类别
$b$	依存类别向量
$C_{w_{sn}}^{2}$	单词 $w_{sn}$ 的多义性聚类类别

新窗口打开| 下载CSV

（1）数据预处理：解析评论中单词之间的依存关系、单词本身具有的词性和词形信息。

（2）多种语义信息生成过程：以评论语句 $s, s \in D$ 为单位,从评论语料 $D$ 中抽取依存关系 $(w_{sm}, w_{sn})$ ,并基于统计的方法计算单词依存关系权重 $w_{sn_w}$ 。基于依存关系 $(w_{sm}, w_{sn})$ 构造语句 $s$ 的有向图 $G_{s}$ ,利用图遍历和文法知识得到语句 $s$ 的依存关系子句 $SubSen t_{si}$ ,最后基于 $SubSen t_{si}$ 构造单词 $w_{sn}$ 的词向量 $e_{w_{sn}}$ ,对 $e_{w_{sn}}$ 聚类得到单词 $w_{sn}$ 的依存关系词向量聚类类别 $C_{w_{sn}}^{1}$ 。本文基于 $C_{w_{sn}}^{1}$ 构造单词的依存类别向量 $b$ ,对 $b$ 聚类产生簇 $C_{w_{sn}}^{2}$ ,簇的数量表示单词 $w_{sn}$ 在 $D$ 中的不同语义数。

（3）多种语义信息组合过程：基于单词的依存关系和先验知识（ $w_{sn}^{pos}$ 、 $w_{sn}^{lemm}$ ）得到单词 $w_{sn}$ 的三类语义信息：基本语义信息（ $w_{sn}^{pos}$ 、 $w_{sn}^{lemm}$ 、 $w_{sn_w}$ ）、结构语义信息（ $C_{w_{sn}}^{1}$ ）、类别语义信息（ $C_{w_{sn}}^{2}$ ）。

（4）属性抽取过程：将三类语义信息,即5种单词特征加入到条件随机场的建模过程中,得到可对属性进行抽取的DepREm-CRF模型。

3.2 多种单词语义信息的构建

基于依存关系嵌入和单词属性设计三类单词语义信息表示,如表2所示。

表2 单词语义信息表示

Table 2 The Semantic Representation of Words

语义信息类别	内容
基本语义信息	词性标注、词形还原、依存关系权重
结构语义信息	依存关系词向量-聚类
类别语义信息	单词语义类别

新窗口打开| 下载CSV

（1）基本语义信息

基本语义信息指单词本身所包含的基本信息,包括词性标注、词形还原和依存关系权重。

①词性标注

最基本的语法属性,表示单词在句子中的作用与角色。以“I love the operating system and the preloaded software.”为例,其词性标注如表3所示。

表3 词性标注示例

Table 3 An Example of Part-of-Speech Tagging

类型	文本
原始数据	I	love	the	operating	system	and	the	preloaded	software
词性标注	PRP	VBP	DT	VBG	NN	CC	DT	JJ	NN

新窗口打开| 下载CSV

②词形还原

抽取出派生、扩展等其他任何形式的单词原形,是对单词在不同表现形态下的统一。充分考虑单词作为一个独立的个体所表达的含义,可以提高条件随机场对单词的理解能力。以“I love the operating system and the preloaded software.”为例,其词形还原如表4所示。

表4 词形还原示例

Table 4 An Example of Lemmatization

类型	文本
原始数据	I	love	the	operating	system	and	the	preloaded	software
词形还原	I	love	the	operate	system	and	the	load	software

新窗口打开| 下载CSV

③依存关系权重

基于依存关系得到单词的依存关系权重,度量单词在评论文本中的重要程度。受到Zhang等^[6]对单词特征期望度和影响度定义的启发,本文设计的依存关系权重计算方法如下。

输入：数据集 $D$

输出：单词依存关系权重 $w_{sn_w}$

①对于每一个单词 $w_{sn} \in D$ :

②获取存在单词 $w_{sn}$ 的语句集 $S_{w_{sn}}$ ,语句集 $S_{w_{sn}}$ 的依存关系集 $A$ ;

③以10个单词为长度,对 $S_{w_{sn}}$ 进行长度分组,保存在 $dict$ 中;

④计算单词在数据集 $D$ 中的比重：

$w_{D} = \frac{count (S)}{count (D)}$

⑤对每一个依存关系子集 $A_{i}, A_{i} \in A$ ,计算单词 $w_{sn}$ 在 $A_{i}$ 中的比重：

$W_{w s_{i}} = \frac{α \cdot count (post) + β \cdot count (neg)}{count (A_{i})}$

⑥计算单词 $w_{sn}$ 的依存关系权重：

$w_{sn_w} = W_{D} \cdot \sum_{s_{i}}^{\in} (\frac{1}{dict (S_{i})} \cdot w_{w s_{i}})$

其中, $count (S)$ 、 $count (D)$ 表示语句集 $S$ 和数据集 $D$ 的规模; $count (post)$ 、 $count (neg)$ 表示单词在 $A_{i}$ 中作依存单词的数量和作被依存单词的数量; $α$ 、 $β$ 表示依存关系正、负因子, $α + β = 1$ 。

（2）结构语义信息

本文提出的结构语义信息表达了单词的类别信息,同类别的单词具有密切的依存关系和相似的位置信息。单词的结构语义信息生成过程如下：

①生成依存关系图及依存关系路径。获取评论中单词之间的依存关系集 $A = {A_{1}, A_{2}, A_{3}, \dots, A_{s}}$ , $A_{s} = {(w_{s 1}, w_{s 2}), (w_{s 2}, w_{s 3}), \dots, (w_{sm}, w_{sn})}$ (假设 $w_{s 1}$ 与 $w_{s 2}$ 、 $w_{s 2}$ 与 $w_{s 3}$ 之间存在依存关系), $A_{s}$ 表示第 $s$ 条评论语句的依存关系对集。同时,考虑到单词 $w_{sm}$ 的出现依赖于单词 $w_{sn}$ 是否出现在评论语句中,但 $w_{sn}$ 对 $w_{sm}$ 的反向依赖程度较低,因此,本文忽略 $w_{sm}$ 对 $w_{sn}$ 的影响。之后,基于依存关系集 $A$ 构建依存关系有向图 $G_{s}$ , $G_{s}$ 表示商品评论语句的语义结构。使用图遍历构建 $G_{s}$ 的依存关系路径集 $L_{s} = {pat h_{s 1}, pat h_{s 2}, \dots,$ $pat h_{sj}}$ , $pat h_{sj}$ 表示第 $s$ 条评论语句中的第 $j$ 条依存关系路径,同时,本文按照如下策略对 $L_{s}$ 进行处理：

1）删除虚义词。介词、冠词等虚义词并不作任何句子成分,为避免虚义词对词向量的生成造成干扰,将虚义词在 $pat h_{sj}$ 中删除。

2）计算 $pat h_{sj}$ 之间的相似程度。若相似程度超过80%,分析 $pat h_{sj}$ 中不相同的局部字段序列,只保留词性为名词、形容词、副词的词项或依存关系为状语从句修饰词（ADVCL）、从句补充(CCOMP)、依赖关系(DEP)、决定词(DET)、名词作状语(NPADVMOD)、动词形式的修饰(PARTMOD)、指代(REF)的单词路径。

②生成依存关系子句。经上述策略处理后,依存关系路径集 $L_{s}$ 转化为依存关系关键路径集 $Key_L_{s} = {Key_pat h_{s 1}, Key_pat h_{s 2}, \dots, Key_pat h_{sj}}$ ,按照文法规则对 $Key_pat h_{sj}$ 进行处理,将 $Key_L_{s}$ 转化为依存关系关键子句集 $S_{s} = {SubSen t_{s 1}, SubSen t_{s 2}, \dots,$ $SubSen t_{sj}}$ 。

③生成依存关系词向量。根据依存关系子句集 $S_{s}$ ,将所有语句的 $SubSen t_{sj}$ 项作为词嵌入模型的输入,由向量映射得到依存关系词向量 $e_{w_{sn}}$ 。 $e_{w_{sn}}$ 除保留单词原有的语义信息之外,还具有表达单词在评论文本中的结构信息的能力,此时,具有相同结构语义的单词被映射到具有相似距离的向量上。

④依存关系词向量聚类过程。考虑到属性的结构语义类型有限,语义结构相似的单词具有相近的词向量结构,若将 $e_{w_{sn}}$ 作为条件随机场的输入特征,易造成信息冗余。因此,受到文本生成过程的启发^[30],对 $e_{w_{sn}}$ 进行层次聚类,采用欧几里得距离计算不同词向量之间的距离,如公式（1）所示。 $q$ 表示词向量维度。

(1)

d = \sqrt[]{[(e_{1,1}, e_{2,1})^{2} + (e_{1, 2}, e_{2, 2})^{2} + \cdot \cdot \cdot + (e_{1, q}, e_{2, q})^{2}]}

计算两个簇中每个数据点与其他数据点的距离,如公式（2）所示,将所有距离的均值作为两个簇的距离。 $R_{a}$ , $R_{b}$ 表示向量簇; $e_{f}$ , $e_{g}$ 表示向量簇中的单词向量。

(2)

d_{avg} (R_{a}, R_{b}) = \frac{1}{|R_{a}| |R_{b}|} \sum_{e_{f}} \sum_{e_{g}} d (e_{f}, e_{g})

⑤生成结构语义信息。在层次聚类过程中,当簇不发生明显变化或达到预设的迭代次数时,聚类停止。此时产生的簇为单词的依存关系词向量类别,即条件随机场输入特征中的结构语义信息。

（3）类别语义信息

尽管词性标注可以解决部分单词的一词多义性,但是单词在同一词性中也会表达出不同的含义,例如“苹果”可以指水果或手机品牌,这类歧义词无法靠其本身的属性进行判别。考虑到属性为手机的“苹果”往往与屏幕、性能、摄像等电子产品类词语构成依存关系;属性为水果的“苹果”往往与香蕉、橘子、清洗等食品类词语相互依存,本文基于结构语义信息对单词的歧义性进行分析。

受到One-Hot编码的启发,对单词 $w_{sn}$ 设计依存类别向量 $b_{r} = {b_{1}, b_{2}, \dots, b_{u}}$ ,其中, $u$ 表示与目标单词构成依存关系的单词总数, $r$ 表示存在目标单词的评论语句序号, $b_{u}$ 表示和目标单词构成依存关系的单词的结构语义信息,即 $C_{w_{sn}}^{1}$ 。对向量 $b_{r}$ 进行层次聚类,当簇不发生明显变化或达到预设的迭代次数后,聚类停止。当簇数量为1时,表示单词在文本中并无歧义性,当簇数量为其他值时,表明单词在文本中存在歧义性,需要按照聚类结果对处于不同语句中的目标单词指定其所属类别,即单词类别语义信息。

3.3 DepREm-CRF模型推导

根据条件随机场^[19]的定义对DepREm-CRF模型进行推导,给定评论语句 $s$ 的观测序列 $w_{s} = [w_{s 1}, w_{s 2}, \dots, w_{sn}]$ ,本文目标是对语句 $s$ 的隐状态序列 $Y_{s} = [y_{s 1}, y_{s 2}, \dots, y_{sn}]$ 进行预测。其中, $w_{s}$ 表示第 $s$ 条商品的评论语句, $Y_{s}$ 表示第 $s$ 条商品评论语句的状态序列, $y_{sn}$ 表示第 $s$ 条商品评论语句中第 $n$ 个单词的隐状态。

本文使用序列标注的常用方法——BIO标注集构造评论语句 $s$ 的隐状态序列,即 $y_{sn} \in \{B, I, O\}$ , $B$ 表示属性的开始标记、 $I$ 表示属性的延伸标记、 $O$ 表示非属性标记。例如某评论：“I love the operating system and the preloaded software.”,通过人工标注发现该语句有operating system和preloaded software两个属性,那么该评论的隐状态序列为 $[O, O, O, B,$ $I, O, O, B, I]$ ,可视化标记形式如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 某商品评论语句的BIO标注集形式

Fig.2 An Example of BIO

对于条件随机场,属性抽取可以转变为在已知评论语句观测序列 $w_{s} = [w_{s 1}, w_{s 2}, \dots, w_{sn}]$ 和单词 $w_{sn}$ 的多种语义信息：基本语义信息（ $w_{sn}^{pos}$ 、 $w_{sn}^{lemm}$ 、 $w_{sn_w}$ ）、结构语义信息 $C_{w_{sn}}^{1}$ 、类别语义信息 $C_{w_{sn}}^{2}$ 的条件下,隐状态序列为 $Y_{s} = [y_{s 1}, y_{s 2}, \dots, y_{sn}]$ 的概率,即,使用多种语义信息对商品评论序列 $w_{s}$ 和隐状态序列 $Y_{s}$ 的条件概率分布 $P (Y_{s} | w_{s})$ 进行求解。对图2进行因子分解,将 $P (Y_{s} | w_{s})$ 简写为 $P (Y | w)$ ,如公式（3）所示。

(3)

P (Y | w) = \frac{1}{Z} \prod_{C} ψ_{C} (Y_{C} | w)

其中, $C$ 为图2中的最大团; $Y_{C}$ 为 $C$ 的随机变量; $ψ_{C} (Y_{C} | w)$ 表示 $C$ 所包含的 $k$ 个随机变量的联合概率分布,即 $ψ_{C} (Y_{C} | w) = e^{- E (Y_{C} | w)}$ ; $Z$ 为归一化处理, $Z = \sum_{Y} \prod_{C} ψ_{C} (Y_{C})$ 。同时,对于每一个预测状态 $y_{o}, o \in n$ ,都有 $P (Y_{O} | X, y_{o}, \dots, y_{n}) = P (Y_{O} | X, y_{o - 1}, y_{o + 1})$ ,根据公式（3）得到属性抽取在条件随机场中的建模公式,如公式（4）所示。

(4)

P (Y | w) = \frac{1}{Z (x)} \prod_{C} ψ_{C} (Y_{C} | w) = \frac{1}{Z (x)} e^{\sum_{O} \sum_{k} λ_{k} f_{k} (Y, w_{o - 1}, o)}

其中, $f_{k} (Y, w_{o - 1}, w_{o}, o)$ 表示第 $k$ 个特征函数,取值为0或1; $λ_{k}$ 表示第 $k$ 个特征函数的权重。5种语义特征（ $w_{sn}^{pos}$ 、 $w_{sn}^{lemm}$ 、 $w_{sn_w}$ 、 $C_{w_{sn}}^{1}$ 、 $C_{w_{sn}}^{2}$ ）分别对应一个特征函数。DepREm-CRF模型算法如下。

输入：训练数据集 $D_{train}$ ,训练状态序列 $Y_{train}$ ,测试数据集 $D_{text}$

输出：测试状态序列 $Y_{pre_text}$

①对 $D_{train}$ 进行停顿词、特殊符号的去除;

②对每一个评论语句 $s \in D_{train}$ ：

③ 对每一个单词 $w_{sn} \in s$ ：

④ 得到单词的词性标注 $w_{sn}^{pos}$ 、词形还原 $w_{sn}^{lemm}$ ;

⑤ 根据算法1计算单词权重信息 $w_{sn_w}$ ;

⑥ 基于依存关系图 $G_{s}$ 得到依存关系子句集 $S_{s}$ ;

⑦ 以 $S_{s}$ 为输入训练词向量;

⑧ 对词向量层次聚类,得到结构语义类别信息;

⑨ 基于结构语义信息构造单词依存类别向量 $b_{r}$ ;

⑩ 对 $b_{r}$ 进行层次聚类得到类别语义信息;

⑪将 $w_{sn}^{pos}$ 、 $w_{sn}^{lemm}$ 、 $w_{sn_w}$ 、 $C_{w_{sn}}^{1}$ 、 $C_{w_{sn}}^{2}$ 作为输入特征, $D_{train}$ 作为观测输入数据、 $D_{text}$ 作为状态输入数据,进行CRF模型训练;

⑫输入 $D_{text}$ 到训练好的条件随机场模型中,得到 $Y_{pre_text}$ 。

4 实验及结果分析

以CRFsuite作为条件随机场的训练平台,使用Gensim函数库生成词向量,利用Stanford文本分析工具和自然语言工具包NLTK作为分词、词性标注、词形还原的工具。同时,使用国际语义测评大赛(International Workshop on Semantic Evaluation, SemEval)开放的数据集和Yelp数据集对DepREm-CRF模型进行训练和测试,使用Yelp数据集和Amazon产品数据集作为依存关系嵌入的额外训练语料,最后将DepREm-CRF模型与其他先进的属性抽取方法进行比较。

4.1 实验设置

（1）数据集

采用SemEval中的三个小规模数据集和Yelp大型数据集进行实验。SemEval是属性抽取领域比较权威的公开数据集,L-14^①(①http://alt.qcri.org/semeval2014/task4/.)是SemEval在2014年公布的笔记本电脑数据集,R-15^②(②http://alt.qcri.org/semeval2015/task12/.)和R-16^③(③http://alt.qcri.org/semeval2016/task5/.)分别是SemEval在2015、2016年公布的餐馆评论数据集,Yelp^④(④https://www.yelp.com/dataset.)是美国最大的点评网站Yelp公开的点评数据。为评价DepREm-CRF模型在大规模数据集中的性能,从Yelp的5 996 996条餐馆评论中选取1 000 000条评论进行训练和测试,数据描述如表5所示。

表5 DepREm-CRF模型训练和测试所用数据集

Table 5 Training Sets and Testing Sets for DepREm-CRF

数据集名称	训练集规模（条）	测试集规模（条）	属性规模（条）
L-14	3 045	800	3 012
R-15	1 315	685	2 499
R-16	2 000	676	3 367
Yelp	800 000	200 000	5 867 511

新窗口打开| 下载CSV

（2）评价指标

沿用Xiang等^[20]在属性抽取中使用的评价指标——准确率(Precision,P)、召回率(Recall,R)和 $F 1$ 值(F1-score)。 $P$ 、 $R$ 与 $F 1$ 的定义如公式（5）-公式（7）所示。

(5)

P = \frac{\sum_{term \in D} J (t, pos (s))}{\sum_{term \in D} J (t, pre (s))}

(6)

R = \frac{\sum_{term \in D} J (t, pos (s))}{\sum_{term \in D} J (t, ture (s))}

(7)

F 1 = 2 \frac{P \times R}{P + R}

其中, $ture (s)$ 表示评论中正确的属性集合; $pre (s)$ 表示DepREm-CRF抽取出的属性集合; $pos (s)$ 表示DepREm-CRF模型正确抽取的属性集合。 $D$ 表示原始评论; $t$ 表示 $D$ 中的每一个属性; $J (t, (A))$ 为条件判断公式,其中A表示属性的集合,如公式（8）所示。

(8)

J (t, (A)) = \{\begin{matrix} 1, if t in (A) \\ 0, if t not in (A) \end{matrix}

4.2 不同语义信息对DepREm-CRF模型的影响

（1）定量分析

以L-14数据集为例,不同语义信息对DepREm-CRF模型的影响如表6所示,其中,基本、结构、类别分别表示本文设计的类别语义信息、基本语义信息、结构语义信息;DepREm-CRF为本文提出的方法。

表6 不同语义信息对DepREm-CRF模型的影响

Table 6 The Results of DepREm-CRF with Different Semantic Information

模型	L-14数据集
模型	$P$ (%)	$R$ (%)	$F 1$ (%)
CRF	83.89	69.42	75.97
CRF+基本	87.02	76.73	81.55
CRF+结构	87.48	76.48	81.61
CRF+类别	86.66	76.19	81.09
DepREm-CRF	87.86	78.31	82.81

新窗口打开| 下载CSV

表6结果表明,与使用传统的单词特征相比,三类语义信息对条件随机场在属性抽取中的表现都有明显提升。具体来说,在使用单类语义信息方面,类别语义信息对实验结果的提升幅度较小,分别提升了2.77%( $P$ )、6.77%( $R$ )、5.12%( $F 1$ ),这是因为类别语义信息只能利用少数多义性单词的作用,而多义性的词语在评论中所占比重不大;结构语义信息对属性抽取的精度有很大提升,分别提升了3.59%( $P$ )、7.06%( $R$ )、5.64%( $F 1$ ),这是因为结构语义信息从依存关系的角度考虑单词之间不同的结构信息,结构信息表明单词在评论文本中所处的位置,提高了DepREm-CRF模型对同类单词的特征学习能力,进一步提升了DepREm-CRF模型的预测精度。在使用多种语义信息方面,融合三类语义信息的方法取得了最好的实验效果,分别提升了3.97%（ $P$ ）、8.89%( $R$ )、6.84%( $F 1$ ),证明DepREm-CRF模型充分学习了单词本身的属性特征以及单词在评论中表达的位置特征,使得CRF可以基于丰富的单词特征更好地识别出评论中的商品属性。

（2）定性分析

以L-14数据集为例,使用不同语义信息抽取属性的结果示例如表7所示。

表7 不同语义信息对属性抽取的示例

Table 7 An Example of Term Extraction with Different Semantic Information

属性类别	模型	属性词集
高频	CRF+基本	price/features/performance/OS/screen/operating system/USB ports/hard drive/speed
	CRF+结构	price/features/performance/OS/screen/operating system/USB ports/hard drive/speed/battery life/works
	CRF+类别	price/features/performance/OS/screen/operating system/USB ports/hard drive
	DepREm-CRF	price/features/performance/OS/screen/operating system/USB ports/hard drive/speed/battery life/works/retina display
低频	CRF+基本	battery/Keyboard/itune/screen display/configure/components
	CRF+结构	battery/Keyboard/itune/screen display/configure/ components/Microsoft Windows/Microsoft Office
	CRF+类别	battery/Keyboard/itune/screen display
	DepREm-CRF	battery/Keyboard/itune/screen display/configure/components/Microsoft Windows/Microsoft Office/aluminum casing/Screen resolution

新窗口打开| 下载CSV

在高频属性词集中,DepREm-CRF模型与使用单一语义信息的模型具有相似的性能,这是因为高频属性基本为常用词汇,这些词汇在词性、词形、依存关系等方面特点鲜明,条件随机场可以较准确地实现属性抽取。

在低频属性词集中,只使用基本语义信息的模型可以发现一般属性,如battery、Keyboard、configure等;而结构语义信息表达出单词在评论中的位置特征,在BIO标注集的帮助下,模型可以发现更多的属性短语,例如Microsoft Windows、Microsoft Office等;笔记本电脑属性一般为领域专业词,单词多义性现象很少发生,因此类别语义信息抽取出的笔记本电脑属性较少;DepREm-CRF模型结合三类语义信息对单词特征进行度量,不仅可以发现更多有意义的笔记本电脑属性,还能结合BIO标注集发现更多属性短语。

4.3 DepREm-CRF模型与其他模型的比较

为验证DepREm-CRF模型的有效性,与以下4种代表性方法进行比较：

（1）BiLSTM+CRF^[1]：通过双向神经网络抽取句子中的结构特征,将获取的单词特征输入至条件随机场解决属性抽取问题。

（2）Unsupervised-CRF^[2]：为叙述方便,将Yin等的工作称为Unsupervised-CRF模型,Unsupervised- CRF使用RNN对单词的语法关系序列进行建模,将得到的单词特征输入至条件随机场中,完成对属性的抽取。

（3）DE-CNN^[18]：获取通用和专业领域知识,训练得到通用嵌入和领域嵌入两种单词特征,将这些特征输入至CNN网络进行属性抽取。

（4）MFE-CRF^[20]：基于词性嵌入和词干嵌入设计6种单词特征,将这些特征输入至条件随机场对商品属性进行预测。

本文按照BiLSTM+CRF和MFE-CRF的设计思路对其模型进行复现。同时,BiLSTM+CRF模型^[1]、Unsupervised-CRF模型^[2]和DE-CNN模型^[18]的部分实验结果数据取自其相应的工作。实验结果如表8所示。

表8 DepREm-CRF模型与其他模型的比较（ $F 1$ :%）

Table 8 Comparison of DepREm-CRF with Other Competitive Models ( $F 1$ :%)

模型	L-14	R-15	R-16	Yelp
BiLSTM+CRF	80.57	70.83	74.49	80.45
Unsupervised-CRF	75.16	69.73	-	-
DE-CNN	81.59	-	74.37	-
MFE-CRF	76.53	70.31	73.81	79.38
DepREm-CRF	82.81	71.96	74.67	84.29

新窗口打开| 下载CSV

与BiLSTM+CRF、Unsupervised-CRF、DE-CNN和MFE-CRF相比,DepREm-CRF在F1上分别提高3.84%(Yelp)、7.65%(L-14)、1.22%(L-14)、6.28%(L-14),DepREm-CRF模型在属性抽取中表现出了较为出色的性能。具体而言：

（1）与Unsupervised-CRF相比,DepREm-CRF通过函数 $f_{k} (Y, w_{o - 1}, w_{o}, o)$ 学习单词的多种特征,更容易抽取出与已知属性具有相似特征的未知属性。

（2）与MFE-CRF相比,DepREm-CRF不仅考虑单词本身具有的词性和词形特征,还基于单词依存关系对单词的结构特征进行量化。同时,与MFE-CRF使用词性识别单词多义性相比,DepREm-CRF考虑了单词的多义性,因此,DepREm-CRF具有比MFE-CRF更好的属性抽取效果。

（3）与基于深度学习的BiLSTM+CRF或DE-CNN相比,DepREm-CRF使用依存关系权重衡量同一单词在不同语句中的表现和影响,同时,在多种语义信息生成过程中,依存关系紧密的单词拥有更近的单词距离,这也促使DepREm-CRF取得更好的属性抽取精度。

此外,在小规模数据集的对比实验中,DepREm-CRF对餐馆数据(R-15、R-16)的性能提升幅度不如笔记本电脑数据(L-14)。这是因为笔记本电脑中的属性大多为领域专属名词或短语,且这些属性具有相似的位置特征,更容易被DepREm-CRF发现。对于餐馆类评论,由于用户的多样性,相同属性往往具有不同描述,依存关系词向量难以对其进行刻画。在大规模数据集Yelp中,丰富的依存关系使得结构语义信息可以捕捉到更准确的单词特征,同时,数据规模的增大丰富了属性的结构信息,使得依存关系权重可以获得更准确的单词位置特征,因此,DepREm-CRF在Yelp数据集上可以获得更好的性能提升。

4.4 额外语料对DepREm-CRF模型的影响

为探究数据集的类型、规模大小对词向量生成所产生的影响,受Xiang等^[20]工作的启发,本文额外添加Yelp数据集和Amazon产品数据集进行词向量训练。Amazon产品数据集^①(①http://snap.stanford.edu/data/web-Amazon.html.)包含书籍、电子产品、电影、音乐等不同类型的产品评论信息。在5 996 996条Yelp评论和1 689 188条Amazon电子产品评论中各选择100 000条数据作为额外语料训练依存关系词向量。

以L-14和R-15数据集为基础,将两种额外语料分别划分为数量均等的10份数据,分析不同类型和规模的数据集对DepREm-CRF模型抽取商品属性能力产生的影响,实验结果如图3所示。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 不同类型、不同规模的额外语料对属性抽取精度的影响

Fig.3 The Accuracy of Term Extraction with Different Typed and Scaled Auxiliary Corpora

由图3(a)可知,在L-14数据集上,额外语料规模的增大会提升DepREm-CRF模型对商品属性的抽取能力。此外,DepREm-CRF模型在Amazon数据集上的表现整体优于Yelp数据集。从数据内容的角度,L-14数据集和Amazon数据集中的内容都为电子产品类评价,而Yelp数据集中主要是餐馆的评价,数据类型和L-14数据集更相似的Amazon产品数据集比Yelp数据集有更积极的影响。

由图3(b)可知,在对R-15数据集进行属性抽取时,在两种额外语料的影响下,DepREm-CRF模型都呈现出更强的属性抽取能力。进一步分析,Amazon产品数据集对DepREm-CRF模型的影响能力不如Yelp数据集。分析R-15、Amazon和Yelp三种数据集的数据内容,造成Amazon产品数据集低影响力的原因是Yelp数据集具有和R-15数据集更相似的数据类型。

综上,额外语料有助于提升DepREm-CRF模型对属性的抽取能力。同时,额外语料中的属性与目标数据集中的属性越相似,其对属性抽取的精度影响越大。此外,DepREm-CRF模型的实验结果还能有效判定额外语料与目标数据集内容的相关度。综上,本文提出的模型能够学习到额外语料中的属性,并将这些属性应用到目标数据集中,从而提升属性的抽取精度。

5 结语

本文提出一种面向商品评论属性抽取的依存关系嵌入的条件随机场模型（DepREm-CRF）。首先抽取商品评论中单词之间的依存关系,然后基于依存关系词向量的聚类结果,设计类别语义信息解决单词存在的一词多义性问题、设计结构语义信息解决单词不能充分表示文本结构信息的问题。将两类语义信息与基本语义信息进行组合,使用条件随机场对三类单词特征进行建模,抽取评论中的商品属性。实验结果表明,本文模型在商品属性的自动抽取过程中具有较好的性能。不足之处在于没有很好地考虑情感词对属性的影响,未来将对属性的情感极性进行研究。

作者贡献声明

李成梁：设计研究方案,采集、清洗和分析数据,进行实验,撰写论文初稿;

赵中英：确定研究题目,提出研究思路,讨论与分析实验结果,修改论文;

李超：设计研究方案,分析实验结果,修改论文;

亓亮,温彦：修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: licl0101@qq.com。

[1] 李成梁. ABSA14_Laptops_Train.xml.L-14实验数据集.

[2] 李成梁.ABSA15_Restaurants_Train.xml. R-15实验数据集.

[3] 李成梁.ABSA16_Restaurants_Train.xml. R-16实验数据集.

[4] 李成梁.Yelp_Restaurants.csv. Yelp实验数据集.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Luo

, Li

, Liu

, et al.

Improving Aspect Term Extraction with Bidirectional Dependency Tree Representation

[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2019,27(7):1201-1212.

[本文引用: 4]

[2]

Yin

, Wei

, Dong

, et al.

Unsupervised Word and Dependency Path Embeddings for Aspect Term Extraction

[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. 2016: 2979-2985.

[本文引用: 4]

[3]

, Liu

Mining and Summarizing Customer Reviews

[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2004: 168-177.

检索词推荐：