引入词向量的隐性特征识别研究*

doi:10.11925/infotech.2096-3467.2019.0702

引入词向量的隐性特征识别研究*

聂卉^,^,, 何欢

中山大学资讯管理学院广州 510006

Identifying Implicit Features with Word Embedding

Nie Hui^,^,, He Huan

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

通讯作者: * 聂卉,ORCID:0000-0001-8567-3084,E-mail:issnh@mail.sysu.edu.cn。

收稿日期: 2019-06-18 修回日期: 2019-10-3 网络出版日期: 2020-01-25

基金资助:

*本文系国家社会科学基金项目“面向用户感知效用的在线评论的质量与控制研究”的研究成果之一. 15BTQ067

Received: 2019-06-18 Revised: 2019-10-3 Online: 2020-01-25

摘要

【目的】 研究基于在线产品评论的隐性特征抽取,帮助用户从评论资讯中获取完整的产品信息与用户评价。【方法】 对两类主流的隐性特征抽取方法,即共现关系推断法和分类法,进行对比分析;构建领域词向量将语义关系引入语句模型,通过增强语句表达能力优化算法;探讨数据集类别样本的均衡性对算法产生的影响。【结果】 实验结果表明,不考虑类别样本量的均衡问题,分类法优于关系推断法,词向量的引入显著增强了语句表达能力,隐性特征识别模型的召回率提升5.91%,F1提升2.48%。若数据集类别样本量均衡,关系推断法表现更优,引入词向量后,最优模型的F1值达0.7503。【局限】 训练词向量的语料规模和均衡语料的规模偏小,有待进一步扩充完善。【结论】 实际应用中,应根据目标数据选择合适的建模方案,均衡数据集下,算法表现更好;词向量对两类方法都有优化作用,对分类法的优化作用更为明显。

关键词： 隐性特征 ; 词向量 ; 特征抽取 ; 情感分析

Abstract

[Objective] The paper tries to extract implicit features from online reviews, aiming to obtain complete product-specific information and users’ evaluation from reviews.[Methods] We compared the performance of two leading methods for implicit feature extraction, relationship-based inference and classification.Then, we introduced the word embedding model, an online review corpus, and semantic-related words to improve each algorithm’s effectiveness. Finally, we examined the impacts of dataset equilibrium on the algorithms.[Results] To idenfity implicit features, the classification-based methods performed better than those based on relation inference with the non-equilibrium dataset. Word embedding significantly improved the quality of sentence model, which increased the recall and F1 scores by 5.91% and 2.48% respectively. With the equilibrium dataset, the relation-inference methods did a better job and the best F1-score was 0.7503 (word embedding).[Limitations] The size of corpus for training word embedding and the balanced dataset needs to be expanded.[Conclusions] The appropriate modeling schemes based on the target datasets and the equilibrium datasets yield better results. Word embedding helps us optimize the methods for classification.

Keywords： Implicit Feature ; Word Embedding ; Feature Extraction ; Sentiment Analysis

PDF (1126KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

聂卉, 何欢. 引入词向量的隐性特征识别研究*. 数据分析与知识发现[J], 2020, 4(1): 99-110 doi:10.11925/infotech.2096-3467.2019.0702

Nie Hui. Identifying Implicit Features with Word Embedding. Data Analysis and Knowledge Discovery[J], 2020, 4(1): 99-110 doi:10.11925/infotech.2096-3467.2019.0702

1 引言

网络社会的迅猛发展催生大量在线评论,在线评论反馈网络用户的真实体验、感受及观点,富含有价值信息。借助情感分析技术从评论资讯中发掘出人们的观点、评价、态度以及情感^[1],对社会生活和经济生活产生了深远影响。在评论挖掘领域,情感分析粒度由粗至细,粗粒度分析多针对篇章或语句,细粒度分析则聚焦评价对象及特征。面向特征的情感分析需要首先明确评价对象及其属性^[2],在自然语言表达中,对象特征往往以显性或隐性方式呈现。例如,酒店评论句“位置很不错,房间的设施也很好！”中有“位置”和“设施”两个明确的显性特征;又如 “房间面临马路,太吵,睡不好觉。”中没有明确的特征词,却暗含“居住环境”这一隐性特征。目前,特征级的情感分析研究主要集中于显性特征的辨识及“特征-观点”对的判断^[3,4,5,6],有效识别隐性特征尽管能显著提升情感分析的精准度,但相关研究较少。隐性特征识别是细粒度情感分析研究的难点^[7]。

本研究面向中文领域,就隐性特征识别问题展开探讨。对基于关系推断和分类的两类主流识别方法进行对比,并尝试引入基于深度学习的词向量模型优化算法,探寻提升隐性特征自动识别算法性能的可行方案;同时分析数据均衡性对算法性能的影响。

2 相关研究

隐性特征识别的基本思路是:先抽取“特征-观点”对,分析观点词和显性特征词间的修饰关系,根据修饰关系建立“显性特征-观点词-隐性特征”三者的映射,以明确隐性特征语义。梳理相关文献发现,目前大多数研究以产品评论为语料,主要针对英文^[2],方法上可归为关系推断法、主题聚类法及分类法。

Zhang等^[8]首先构建显性特征词与关联词的共现矩阵,采用双向传播算法^[3]抽取“特征-观点”对并构建共现矩阵,据此生成观点词对应的候选特征词集,最后根据候选特征词和语句中相关词项的共现关系确定语句的隐性特征语义。该方法不仅考虑了特征词与观点词的对应关系,同时也考虑了特征词和其他非观点词间的关联。Sun等^[9]同样利用显性特征词与观点词间的共现关系抽取候选特征词,并通过上下文引入语义,提升隐性特征识别的准确度。两个研究均是在明确评论句中蕴含了隐性特征的前提下进行分析,Schouten等^[10]则既判断评论句是否蕴含隐性特征,又对特征进行识别。研究者利用标注了隐性特征的语料集建立显性特征词及其相关词共现矩阵,通过计算显性特征与待测语句中各词项的共现分确定待测语句蕴含的隐性特征。Hai等^[11]的识别方法利用关联规则,借助显性特征与观点词的共现矩阵,挖掘“观点词→特征词”的关联规则;通过语句中的观点词搜索和观点词匹配的规则确定其隐性特征语义。Wang等^[12]运用多个指标确立“特征指示词→特征词”的关联规则,并根据出现频次和词性生成特征词的候选指示词,根据特征指示词的重要度,生成关联规则推断语句的隐性特征语义。

上述研究主要利用词共现建立特征与观点词的对应关系。亦有研究采用其他方法建立特征-观点之间的映射关系,如张莉等^[13]基于领域常用语对特征词进行聚类,通过对观点词进行形式精简和同义词扩充,构建<特征观点权重> 三元组字典,用于识别隐性特征。Hai等^[14]提出用ABOOT(Association-based Bootstrapping Method)算法抽取显性和隐性特征,该方法对显性特征词聚类,利用LRT（Likelihood Ratio Tests）和LSA（Latent Semantic Analysis）计算观点词和特征群组的语义关联度,再通过观点词匹配特征群组,明确语句隐性特征。

若将隐性特征识别看作分类问题,机器学习方法可用于识别隐性特征。Xu等^[15]预先定义特征类别,将在显性特征句集中得到的约束和先验知识纳入隐主题模型LDA得到特征类别的相关词语,以这些词语为特征对评论句建模,通过构建SVM分类器识别隐性特征。Hajar等^[16]结合语料和WordNet词典,采用朴素贝叶斯分类器识别隐性特征。邱云飞等^[17]根据词性及相关规则获得候选特征词和指示词,利用指示词间的相似度对候选特征词聚类,获得隐性特征类别;再利用 $χ^{2}$ 统计量测度特征指示词对隐性特征的指示能力,确定隐性特征。Yan等^[18]采用基于图的NodeRank算法同时挖掘显性特征和隐性特征。还有研究运用主题聚类法。仇光等^[19]假设若两条评论语句在意见空间上接近,则有可能评论的是相同特征。他们通过分析评论信息中不同产品特征对应的观点词分布及观点词的主题依赖性,采用主题建模框架发现隐性特征推断的“线索”词。

隐性特征识别大致采用共现分析、关联规则、主题模型及分类等方法,其中基于共现和关联规则的关系推断法最普遍。这类方法主要借助观点词到特征词的映射关系判断隐性特征;一些研究^[8,10,12]将特征指示词扩展至非观点词,算法关键部分是挖掘观点词与特征词的对应关系,因此隐性特征辨识的精度很大程度上依赖于“特征-观点”对的提取。这一方法通常将隐性特征对应到已有的显性特征词上,因此只有在显性特征评论语句中出现的观点词（或指示词）才能作为映射特征词的依据。一些方法（如张莉等^[13]）抽取效果较好,但人工参与度较大。基于机器学习的分类方法自动化程度高,需要标注语料,核心问题仍是找出指示隐性特征的特征词项。

本研究通过实验对两类主流方法进行对比分析,为提升相关算法的性能,在表现较优的分类算法中引入词向量。在情感分析领域,词向量模型已广泛用于特征抽取和领域词典构建。如周清清等^[20]利用Word2Vec中的Skip-gram模型对候选特征词构建词向量,实现特征词聚类。李良强等^[21]结合词向量表征和K-means聚类抽取产品特征属性。林江豪等^[22]利用词向量,通过计算候选情感词和种子词的词向量间语义相似度,构建领域特征词典。词向量能够从语义层面挖掘隐性特征的指示词,使特征指示词不再局限于语料集。

综上,词向量在显性特征提取和情感分类中已有大量应用,隐性特征识别中引入词向量的研究尚未发现。因此,本文在对比关系推断法和分类法的基础上,借助词向量表达扩展特征指示词,引入语义优化隐性特征的自动识别方法。

3 隐性特征自动识别

本文将关系推断法和分类法在隐性特征识别任务中的表现进行对比。对于关系推断法,重点探讨蕴含隐性特征的评论句与特征类别的关联计算;分类法则侧重特征建模,提出引入词向量增强评论句的特征表达能力,优化隐性特征识别分类模型的思路。整体研究架构如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 实验设计框架

Fig.1 Framework of the Research

在实验过程中,发现数据均衡性对算法性能存在较大影响。为此,本研究构造了一个均衡数据集,并分别在原始数据集（非均衡）和均衡数据集上运行算法,以获取最佳的隐性特征识别模型。

3.1 Word2Vec词向量模型

神经网络和深度学习的快速发展使词向量（Word Embedding）成为自然语言处理领域的热点。Bengio等^[23]在2003年开始使用神经网络对语言建模。2013年,Mikolov等^[24]在Bengio等的基础上提出了著名的词向量概念Word2Vec,其核心思想是通过上下文学习词的向量表达,涉及CBOW(Continuous Bag of Words)和Skip-gram两个重要模型。二者区别在于CBOW利用上下文预测词项,Skip-gram则是根据词项预测上下文,如图2所示。词的向量表示能够反映词的语义,利用其空间距离可测度词项间的语义关联度。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 Word2Vec的CBOW模型和Skip-gram模型^[24]

Fig.2 WordVec-Based CBOW and Skip-gram Model^[24]

本研究利用Word2Vec词向量挖掘词语的语义关联词。词向量构建借助Python的Gensim工具包,选择CBOW模型,向量维度100,上下文窗口尺寸5,训练语料为147 156条酒店评论。将词项在 $R^{n}$ 空间的词向量表示为 $\vec{t} = [x_{1}, x_{2}, ..., x_{n}]$ 。

用词向量内积测度词语间的语义关联度,如公式(1)所示。

(1)

Semantic_sim (t_{i}, t_{j}) = \cos θ = \frac{\vec{t_{i}} \cdot \vec{t_{j}}}{‖\vec{t_{i}}‖ \cdot ‖\vec{t_{j}}‖}

利用构建的词向量,通过语义关联度计算获得与“地铁站”关联度最高的10个词项如表1所示。

表1 “地铁站”的语义关联词

Table1 Semantic-related Terms of “Metro”

词项	语义关联度	词项	语义关联度
地铁口	0.875	商业街	0.685
地铁	0.869	解放碑	0.685
轻轨站	0.739	春熙路	0.681
公交站	0.727	夫子庙	0.664
王府井	0.694	车站	0.661

新窗口打开| 下载CSV

3.2 基于关系推断的隐性特征识别法

(1) 词项与特征类属的相关度计算

通过关系推断实现隐性特征识别的关键是计算评论句与特征类别的相关度,建立语句与特征类别之间的映射关系。相关研究中^[9,11],主要利用句中的观点词与显性特征词的共现率计算相关度。但观察发现,句中特征指示不限于观点词。如,“走到天安门40分钟”,该句无观点词,但根据“走”和“分钟”可推断语句对应隐性特征“地理位置”。显然,某些非观点词也起到了特征指示作用。另则,共现推理一般基于词共现,共现率能反馈出语句结构中词间相关性。此外,对于词项的特征“指示力”,还可以考虑词项区分特征类别的能力。

为此,本研究将句中的非观点词也纳入特征指示候选词;另一方面,引入两个指标测度词项的特征指示力,分别是共现得分Coo_score以及指示强度Ind_index。

① 共现得分Coo_score

该指标表征词项与特征类的共现关系,参考Schouten等^[10]的研究,计算方法如公式(2)所示。其中, $freq (w)$ 为 $w$ 的出现频次, $freq (w, F)$ 为词语 $w$ 与特征类 $F$ 的共现频次, $Coo_score (w, F)$ 越高,表明 $w$ 与 $F$ 的相关度越大, $w$ 指示 $F$ 的可能性越大。

(2)

Coo_score (w, F) = \frac{freq (w, F)}{freq (w)}

② 指示强度Ind_index

指示强度表征词项区分特征类别的能力,采用 $χ^{2}$ 统计量测度词项对特征类的区分力,计算方法如公式(3)所示^[25]。

(3)

χ^{2} (w, F) = \frac{N \times {(A \times D - C \times B)}^{2}}{(A + D) \times (B + D) \times (A + B) \times (C + D)}

其中, $N$ 为训练语料中语句数, $A$ 是类 $F$ 中包含 $w$ 的语句数, $B$ 是其他类中包含 $w$ 的语句数, $C$ 是类 $F$ 中不包含 $w$ 的语句数, $D$ 是其他类中不包含 $w$ 的语句数。 $χ^{2} (w, F)$ 越大, $w$ 区分 $F$ 的能力越强。对 $χ^{2} (w, F)$ 排序,得到 $w$ 在 $F$ 特征指示词序列中的排名 $Rank (w, F)$ ,根据 $Rank (w, F)$ 计算 $w$ 对 $F$ 的指示强度,计算方法如公式(4)所示。

(4)

Ind_index (w, F) = \frac{1}{Rank (w, F) + 1}

对于在F的特征指示词序列中未出现的词项,令 $Ind_index (w, F) = 0$ 。根据公式(4),排名越靠前, $w$ 指征 $F$ 的能力越强,取Ind_index排名前100的词项为相应特征类的指示词。

在实验语料上提取酒店领域的特征类指示词示例如表2所示。

表2 酒店领域的特征指示词示例

Table 2 Feature Indicators in Hotel-Specific Reviews

特征类别	特征指示词
员工素质	热情阿姨亲切礼貌帮忙客人行李顾客询问友好
地理位置	方便地铁站地铁分钟距离远步行走出行外滩
酒店服务	入住退办理房时间升级慢免费长现金手续安排
清洁程度	烟味打扫干净灰脏蟑螂清洗清洁臭灰尘整洁
舒适程度/居住环境	吵安静舒适睡晚上舒服休息静睡眠闹半夜
基本设施/用品配置	洗澡水淋浴旧床头公共方便无线提供双人床沐浴
价格	元贵便宜收费收钱税物超所值高物有所值
食物	吃餐餐點餐飲面食粗粮套餐用餐餐好吃 Brunch

新窗口打开| 下载CSV

(2) 语句与特征类属的相关度计算

本研究采用三种方案计算语句S与特征类F的关联度,即单指标方案Coo_score和Ind_index以及组合指标方案Coo_score+Ind_index。令待测语句 $S = {w_{1}, w_{2}, ..., w_{m}}$ ,相关度计算如公式(5)和公式(6)所示。最后取与S关联度最大的特征类作为S的隐性特征。

(5)

Coo_score (S, F) = \overset{m}{\sum_{i = 1}} Coo_score (w_{i}, F)

(6)

Ind_index (S, F) = \overset{m}{\sum_{i = 1}} Ind_index (w_{i}, F)

(3) 基于词向量的语义扩展

上述共现得分Coo_socre和指示强度Ind_index计算都只考虑了训练语料中的词对特征类别产生的影响,若待测语句中的某词项语料集未涵盖,则会被忽略,结果导致相关度计算结果出现偏差。为充分利用语句中词项的特征指示作用,本研究引入词向量对待测语句中的词项进行语义扩展,将语义关联词纳入Coo_socre和Ind_index的计算。以Coo_socre为例进行说明:设 $w_{i}$ 为待测句中的词项,对于某特征类F,若 $w_{i}$ 出现在语料中,则直接计算 $Coo_score (w_{i}, F)$ ;否则,根据语义相似度计算找出 $w_{i}$ 的一组语义相关词,依相关度排序（前10个）,记为 $Sim_list (w_{i})$ ,依序判断 $Sim_list (w_{i})$ 中的语义关联词项是否在训练集中出现,若出现则以语义关联词项和F的共现得分作为 $w_{i}$ 和F的共现得分。同理可计算 $w_{i}$ 的指示强度Ind_index。

3.3 基于分类的隐性特征识别

基于标注了特征类属的语料,隐性特征识别可转化为一个文本多分类问题。尽管如此,实际研究中,隐性特征识别并不简单等同于一般性文本分类任务,算法设计需考虑到其特殊性。一则,待测评论句多为短文本,传统词袋模型会引发数据稀疏问题,可能不适用;另则,辨识隐性特征需获得有效特征指示词,基于词共现的特征选择策略可能会忽略语料未涵盖却十分重要的指示词,影响分类效果。

增强语句的特征表达是解决上述问题的可行方案。例如,Hajar等^[16]利用WordNet的同/反义和派生关系对基本特征指示词进行扩展,以一定方式过滤噪音后,再通过构建朴素贝叶斯分类模型识别隐性特征。该研究证明,词项扩充能够有效提升识别精度。本研究借鉴这一思路,但也注意到,词典扩充法会受制于词典,对词典没有收纳,而特定领域或语境下存在的词间语义关系仍无法捕获。如“支付宝”和“信用卡”词典中无关联,但酒店评论中两词均指向“支付方式”,二者语义关联密切。对于隐性特征识别任务,获得语义相关的有效指示词是增强语句特征描述的重要途径。相较于词典扩充,从领域语料中挖掘词间语义关系,能更有效地引入特征指示词,获得更好的分类效果。

为此,本研究分别基于词频、 $χ^{2}$ 、信息增益进行特征选择,同时借助领域语料构建词向量,利用词向量扩展特征指示词,优化语句向量描述,并选用适用于短文本的朴素贝叶斯算法构建隐性特征识别分类器。评论句采用0/1词袋模型,语义关联词引入遵循同义替换原则,即在特征空间 $V = {w_{1}, w_{2}, ..., w_{n}}$ 上对评论句S进行向量描述,若特征词 $w_{i}$ 在S中出现,对应维度赋1;否则依据基于词向量的相似度计算搜索 $w_{i}$ 的语义关联词,按关联度排序（前10个）,记为 $Sim_lis t (w_{i})$ ;依序判断 $Sim_list (w_{i})$ 中的词项是否在S中出现,若出现则依然认为S中含有 $w_{i}$ , $w_{i}$ 对应维度赋1,否则为0。例如“地铁站”是明确的特征词,但“轻轨站”不是。对于评论句“就在轻轨站边上”,由于“轻轨站”是“地铁站”的语义关联词,因此在引入语义词的建模方案中,语句在“地铁站”维度下的值仍设为1,该语句与“地理位置”这一特征建立联系。

4 实验与分析

4.1 数据及预处理

(1) 词向量构建语料

将在线住宿预订网站Booking.com 上的用户评论作为分析语料,示例如图3所示。评论页面包括用户评分,总体评价语以及具体的好/差评（表情符区分）。利用Python编写爬虫采集中国各大城市的酒店评论（采集时间2018年12月）,剔除字数少于5的评论句,共获得评论句147 156条,其中好评85 188条,差评61 968条。利用哈尔滨工业大学社会计算与信息检索研究中心的语言技术平台（Language Technology Platform, LTP）^[26]进行分词、词性标注、数据清洗等预处理工作,整理后的语料用于训练词向量。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 Booking.com酒店评论示例

Fig.3 A Hotel-Specifc Review on Booking.com

(2) 评测语料

参考网站设定的酒店评价指标,通过阅读分析,将酒店评论的特征主题划分为八类,分别是员工素质、地理位置、舒适程度/居住环境、基本设施/用品配置、价格、食物、清洁程度和酒店服务。采用人工方式构建酒店领域的特征词典:以名词为候选特征词,依词频从高到低排序(取前2 000个词),人工筛选特征词(前2 000个词的总词频占所有名词词频的90%以上);并补充部分非名词的特征词项,最终生成的特征词典共涵盖456个词项,示例如表3所示。

表3 酒店领域特征词典示例

Table 3 A Set of Feature-Terms About Hotel

特征类别	特征词
员工素质	态度前台员工服务员店员服务生接待员
地理位置	位置交通地点周边景点地段
舒适程度/居住环境	氛围噪音舒适度隔音安全感安全性舒适感
基本设施/用品配置	设施空调卫生间浴室用品设备热水装饰摆设
价格	价格性价比服务费价位房价价钱费用
食物	早餐餐饮美食早饭中餐食品餐点
清洁程度	味道气味清洁度卫生
酒店服务	效率服务服務

新窗口打开| 下载CSV

基于特征词典,从语料中抽取不含特征词项的评论句作为分析语料,采用人工标注生成评测数据。数据标注遵照设定的规则,如表4所示。

表4 数据标注规则

Table 4 Annotation Rules

规则	规则说明
规则1	若标注人员认为评论句评价了酒店的某特征F,则明确标注为F;如果F不属于上述8类中的任何一类,标注为“其他”;
规则2	若是针对酒店整体的评价或表达用户自身感受的评论句,如“大致上都还是很满意的。”,则认为语句不包含评价特征,标注为“无”;
规则3	对于不包含任何特征或含有多个评价特征的评论句,标注为“无”。

新窗口打开| 下载CSV

原始评论句共10 249条,经分句、筛选、标注后返回结果经质检(抽样测试标注精度达90%),共获得含8个隐性特征的评论句2 045条,各特征类语句分布如表5所示。

表5 标注的隐性特征句特征类别分布

Table 5 Distribution of Implicit Feature Dataset

特征类属	含隐性特征语句量	分布占比（％）
地理位置	694	33.936
酒店服务	416	20.342
基本设施/用品配置	347	16.968
舒适程度/居住环境	259	12.665
员工素质	120	5.867
价格	84	4.108
清洁程度	72	3.521
食物	53	2.593

新窗口打开| 下载CSV

(3) 测评指标

实验测评指标采用准确率Accuracy、精准度Precision(P)、召回率Recall(R)和综合指标F1值。因特征主题有8个类别,整体模型评价取8个类别指标的宏平均。

4.2 实验结果与分析

根据图1,设计两组实验,采用5折交叉验证。在评测语料上,对比分析基于相关度计算的关系推断法和基于特征选择的分类法在隐性特征识别任务中的表现。在此基础上,对综合表现最好的方法进行优化,利用词向量引入语义关联词,观测语义信息对算法产生的影响。

(1) 基于关系推断的隐性特征识别实验

对3.2节提及的三种关联度计算方法进行实验,检验基于Coo_score和Ind_index两个单指标以及组合指标模式Coo_score+Ind_index进行隐性特征识别的效果。

结果如图4所示,单指标模式中,Coo_score隐性特征识别方法准确率较高而召回率较低,Ind_index方法则是召回率较高,组合模式整体表现最好,在保持Coo_score的高精确率的同时使召回率进一步提升。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 隐性特征抽取结果(基于关系推断法)

Fig.4 Results of Implicit Feature Identification(Relationship-based Inference Method)

(2) 基于分类的隐性特征识别实验

采用朴素贝叶斯算法构建分类器,调用Python的Scikit-learn里的BernoulliNB算法,分别以词频、信息增益、 $χ^{2}$ 进行特征选择,语句采用0/1词袋模型,检测各特征选择方案在隐性特征识别中的表现。

① 特征维度的影响

考察特征维度对算法性能的影响,实验结果如图5所示,性能评测指标为F1值。可以看到,特征空间在400维之后,各特征选择方案下的F1趋于稳定。因此,后续实验中,将特征空间维度设为500。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 不同特征维度下三种特征选择方案的F1指标

Fig.5 F1-score Based on Three Feature Selection Strategies

② 特征选择方案的影响

考察并选择最佳的特征选择方案,结果如图6所示。在研究数据集上,三种特征选择方案中,基于信息增益的分类模型的综合表现(F1)最优,其次是 $χ^{2}$ 统计模型,基于词频的分类模型表现最不理想。后续优化实验以基于信息增益的分类算法为研究对象。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 不同特征选择方案下模型的分类效果

Fig.6 Performance of Classifiers Based on Different Feature Selection Models

③ 关系推断法与分类法识别效果对比

分别采用关系推断法和分类法对评论句的隐性特征进行判断,实验结果如表6所示。总体观察,在评测数据集上,分类法整体表现优于关系推断法。三个分类方案的综合指标(F1)均优于表现最好的关系推断法,即 $Coo_score + Ind_index$ 组合指标方案(F1=0.576)。这表明,分类算法对隐性特征识别更适用。尽管推断法简单易行,但因判断依据相对单一(只考虑了共现关系和特征指示强度),识别能力有限。分类法依据高维特征(本实验特征空间维度为500)进行研判,涵盖信息丰富,能更充分地发掘语句中各词项与特征主题的关联,因而获得了更高的准确率。在分类法中,基于信息增益的分类器的表现优于词频和 $χ^{2}$ 方案,Accuracy达0.742,F1为0.619。

表6 关系推断法与分类法的实验结果

Table 6 Experiment Results of Relation-Inference Method and Classification

方法	方案		宏平均
方法	方案	Accuracy	P	R	F1
关系推断法	$Coo_score$	0.713	0.701	0.499	0.535
	$Ind_index$	0.658	0.597	0.574	0.564
	$Coo_score + Ind_index$	0.729	0.728	0.533	0.576
分类法	词频	0.724	0.603	0.571	0.576
	$χ^{2}$ 统计	0.725	0.678	0.582	0.607
	信息增益	0.742	0.648	0.609	0.619

新窗口打开| 下载CSV

(3) 引入词向量的隐性特征识别

① 多分类模型的整体表现

由于基于信息增益的分类算法整体表现最优,对其做进一步优化,将基于词向量的语义关联词引入语句模型,通过增强语句表达能力提升分类判断力;同时检验词向量在隐性特征识别任务中的作用。具体方法如3.3节所述,评测采用5折交叉验证,结果如表7所示。

表7 引入语义关联词前后信息增益法实验结果

Table 7 Global Classifying Performance

方法	宏平均
方法	P	R	F1
信息增益	0.648	0.609	0.619
信息增益+引入关联词	0.638	0.668	0.644

新窗口打开| 下载CSV

引入语义关联词后F1提升0.025。召回率从引入语义关联词前的0.609升至0.668。语义关联词的引入改善了特征矩阵的稀疏性,语句模型中因纳入了更多与特征主题有关的信息,质量增强。

② 各主题特征分类模型表现

原始评论语料中,特征因获得关注度不同,导致不同特征类样本分布不均衡。某些特征的样本量较充分,有的则偏少。实验语料中“地理位置”对应评论样本较多,而“食物”则较少。语义关联词对分类模型的作用因样本数量不均衡而有所不同,如表8所示。

表8 面向具体特征的隐性特征识别结果

Table 8 Feature-specific Classifiers Performances

特征类别	样本占比(%)	引入语义关联词前			引入语义关联词后
特征类别	样本占比(%)	P	R	F1	P	R	F1
地理位置	33.936	0.886	0.909	0.897	0.943	0.896	0.918
酒店服务	20.342	0.820	0.754	0.783	0.840	0.699	0.761
基本设施/用品配置	16.968	0.572	0.736	0.642	0.605	0.705	0.650
舒适程度/居住环境	12.665	0.702	0.595	0.6435	0.6344	0.6117	0.622
员工素质	5.867	0.655	0.593	0.621	0.549	0.6876	0.609
价格	4.108	0.656	0.567	0.599	0.685	0.7251	0.700
清洁程度	3.521	0.533	0.435	0.454	0.474	0.4657	0.459
食物	2.593	0.363	0.279	0.312	0.374	0.5511	0.430
宏平均	-	0.649	0.609	0.619	0.638	0.668	0.644

新窗口打开| 下载CSV

样本量较充足的特征类,如“地理位置”,在引入语义关联词后,精准度提升(0.886→0.943),召回率略降(0.909→0.896),整体F1从0.897升至0.918。而样本量偏少的特征类,如“食物”(53条评论),引入语义关联词后,精准率变化不大,但召回率提升明显(0.279→0.551),整体F1从0.312升至0.430。在其他各类上,也观察到类似的指标变化规律,见图7。对于样本数量较多的“地理位置”、“酒店服务”和“基本设施/用品配置”,语义关联词引入主要增强的是语句的语义表达能力,精准率普遍提升。对于样本量偏少的“价格”、“清洁程度”和“食物”,语义关联词引入则主要对召回率产生作用,语料中未出现或未被选为特征词的词被纳入模型,相当于充实了特征类的信息,矩阵稀疏性得以改善。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 引入语义关联词后各指标变化情况

Fig.7 Index Changes After Semantic-related Terms Introduced into the Model

但实验也发现,同为样本量偏少的“清洁程度”,其召回率的提升幅度较“价格”和“食物”两个特征类明显偏低。原因可能在于该特征类对应的特征词明确,主题范围窄,即使少量样本也覆盖了关键的特征词项,如“干净”、“整洁”、“脏”等,因此由语义关联词产生的优化效果不明显。“食物”、“价格”不同,这两类的特征词涵盖面宽泛,样本量少时,训练集覆盖到的关键特征词有限,语义关联词的引入扩充了特征词项,因此优化效果显著。

综上,实验表明以信息增益为特征选择指标,引入语义关联词的分类模型整体表现最好,但分类表现通常会受样本数量的影响,样本偏少的特征类识别效果略差。同时,实验发现,引入语义关联词能够有效弥补样本量少的不足,显著提升模型召回率。对于主题宽泛的特征类,作用尤其明显。具体示例如图8所示。

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 隐性特征自动识别结果示例

Fig.8 A Set of Examples of Implication Feature Identification

4.3 数据均衡性对结果的影响

原始数据集中各类别样本不均衡,会导致算法训练结果偏向于样本量较多的类别,影响算法性能。为此,本文针对数据均衡性问题做了进一步探究。

实验中对数量多的类别（“地理位置”、“酒店服务”、“基本设施/用品配置”、“舒适程度/居住环境”、“员工素质”）进行随机采样,对数量少的类别（“价格”、“清洁程度”、“食物”）增加采样,各类别样本量取100,生成均衡语料集。在均衡语料集上采用5折交叉验证进行实验,结果如图9所示。

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 不同数据集上各方案实验结果 (F1)

Fig.9 Experiment Results in Different Datasets (F1)

各算法在均衡数据集上的性能指标均显著优于原始非均衡数据集。 $Coo_score + Ind_index$ 方案的F1提升幅度最高,未引入关联词时,F1从0.576升至0.705;引入关联词后,F1从0.590升至0.750。分析原因,基于指标的关系推断本质上利用的是词语和特征类的共现率,因而受到类别样本量的影响更显著。类别样本量不均衡的情况下,词项与样本量少的类别的共现得分偏低,词项类别预测倾向于样本量多的类别,影响了算法的整体表现。信息增益分类法受语料均衡性的影响相对较小,但均衡语料上的表现也优于非均衡语料。整体比较,均衡语料上,引入关联词的 $Coo_score + Ind_index$ 方案综合表现最优(P=0.754,R=0.759,F1=0.750),结果如表9所示。

表9 不同数据集上-各方案实验结果

Table 9 The Results of Different Models in Two Datasets

数据集	方案	P	R	F1
不均衡数据集	$Coo_score + Ind_index$	0.728	0.533	0.576
	信息增益法	0.648	0.609	0.619
	$Coo_score + Ind_index$ +引入关联词	0.730	0.547	0.590
	信息增益+引入关联词	0.638	0.668	0.643
均衡数据集	$Coo_score + Ind_index$	0.717	0.717	0.705
	信息增益法	0.655	0.630	0.630
	$Coo_score + Ind_index$ +引入关联词	0.754	0.759	0.750
	信息增益+引入关联词	0.726	0.718	0.717

新窗口打开| 下载CSV

可见,数据集的均衡性直接影响算法性能,且对基于共现的关系推断法影响尤为明显。基于信息增益的分类法对样本量更敏感,语义关联词的引入能够有效改善分类法的性能。因此,在实际应用中,在数据量偏少而样本类别均衡的情况下,关系推断法是优选建模方案;若样本类别不均衡,分类法有更好的表现,尽管对数量少的类别的识别效果略差,但引入语义关联词能有效弥补数据量少的不足,显著提升分类模型的识别精度。

5 结语

目前对特征级情感分析的研究主要集中于显性特征抽取及显性特征观点对的识别,隐性特征抽取研究重要但富有挑战。本研究聚焦这一主题,探讨从在线评论中自动抽取隐性特征的有效方法。这一研究对提升特征级情感分析的精度有重要意义,能帮助用户从大量在线评论中获取更为完整和准确的信息。

本文对比分析基于指标的关系推断和基于特征选择的分类算法两类隐性特征识别方法,提出引入词向量改进原方法的优化策略,实验证明引入词向量获得其语义上的关联词,能够更好地利用领域语料,进行隐性特征的自动识别。同时针对语料中的样本不均衡问题,探讨了数据均衡性对算法的影响。本文的主要研究结论可归为以下三点:

(1)对于隐性特征识别任务,若不考虑语料集类别均衡问题,分类法优于关系推断法。关系推断法基于词项的共现关系以及对分类的贡献,因判断依据较单一,整体表现不及分类算法。

(2)分类法中,基于信息增益特征选择策略的模型表现最优。但分类法对样本量敏感,特征样本偏少的情况下,模型表现受影响。本研究通过引入基于词向量的语义关联词改善语句模型,增强了语句的表达能力,有效地提升了模型的识别精准率和召回率。

(3)两类算法均受数据集类别样本均衡性的影响,样本类别均衡的数据集下算法性能更优,且关系推断法受均衡性影响更大。实际应用中,应根据研究语料的实际状况选择合适的建模方案。

研究中的不足主要有以下两点:

（1）训练词向量的语料规模不大,未来可考虑用更大规模和更多来源的数据;

（2）实验中所用的语料集数据量偏少,进行样本均衡性实验时,由于“食物”类别的数据量较少,导致均衡语料每个类别的数据量设定受限(100),未来可扩充数据集进行更深入的实验。

进一步的研究将从以下两方面展开:在线评论中普遍存在主题特征样本分布不均衡的情况,对于样本量偏少的主题类别,要想获得大量的训练数据,则需要进行更多的人工标注,如何进一步优化语句模型,在不增加标注工作量的情况下提升模型的识别准确率,还需要深入的研究。另一方面,不同于显性特征能抽取出“特征-观点”对,大多数隐性特征句中不含有观点词,如何判断不含观点词的主观语句的情感倾向是一个值得探索的新问题。

作者贡献声明

聂卉:提出研究问题,设计实验方案,论文修改及最终版本修订;

何欢:设计研究方案,负责实验,数据采集及分析,撰写论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail:623942541@qq.com。

[1] 何欢.酒店评论.rar. Booking.com酒店评论原始语料.

[2] 何欢.隐性特征识别标注数据.rar. 实验中使用的不均衡数据集和均衡数据集.

[3] 何欢.booking_hotel.model. 以酒店评论语料训练的词向量模型.

[4] 何欢.酒店领域特征词典.txt. 研究中构建的酒店领域特征词典.

[5] 何欢.隐性特征识别结果.rar. 在均衡数据集和不均衡数据集上的隐性特征识别结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

刘兵

.情感分析: 挖掘观点、情感和情绪[M]. 刘康, 赵军,译.北京:机械工业出版社, 2017.

检索词推荐：