数据分析与知识发现, 2023, 7(1): 1-21 doi: 10.11925/infotech.2096-3467.2022.0472

综述评介

跨语言情感分析研究综述*

徐月梅,,, 曹晗, 王文清, 杜宛泽, 徐承炀

北京外国语大学信息科学技术学院 北京 100089

Cross-Lingual Sentiment Analysis: A Survey

Xu Yuemei,,, Cao Han, Wang Wenqing, Du Wanze, Xu Chengyang

School of Information Science and Technology, Beijing Foreign Studies of University, Beijing 100089, China

通讯作者: 徐月梅,ORCID:0000-0002-0223-7146,E-mail:xuyuemei@bfsu.edu.cn

收稿日期: 2022-05-11   修回日期: 2022-07-11  

基金资助: *中央高校基本科研业务费专项资金的研究成果之一(2022JJ006)

Corresponding authors: Xu Yuemei,ORCID:0000-0002-0223-7146,E-mail:xuyuemei@bfsu.edu.cn

Received: 2022-05-11   Revised: 2022-07-11  

Fund supported: Fundamental Research Funds for the Central Universities(2022JJ006)

摘要

【目的】 对跨语言情感分析的研究脉络进行梳理总结。【文献范围】 以Web of Science数据库为检索平台,以TS=cross lingual sentiment OR cross lingual word embedding为检索式,筛选90篇文献进行述评。【方法】 根据跨语言情感分析所采用的技术进行分类概述,包括基于机器翻译及其改进、基于平行语料库、基于双语情感词典三种早期的主要方法,再到引入Word2Vec和GolVe等词向量模型后,基于跨语言词向量模型的方法,最后到2019年以来基于Multi-BERT等预训练模型的方法。【结果】 总结跨语言情感分析相关研究的主要思路、方法模型、不足之处等,分析现有研究覆盖的语言、数据集及其性能。发现虽然Multi-BERT等预训练模型在零样本的跨语言情感分析上取得较好性能,但是仍然存在语言敏感性问题。早期的跨语言情感分析方法对现有研究仍有一定指导和参考价值。【局限】 部分跨语言情感分析模型属于混合模型,分类时仅按照主要方法进行归纳。【结论】 展望跨语言情感分析的未来发展和亟待解决的问题。随着预训练模型对多语言语义的深层次挖掘,适用于更多更广泛语种的跨语言情感分析模型将是未来发展方向。

关键词: 跨语言; 多语言; 情感分析; 双语词嵌入

Abstract

[Objective] This paper teases out the research context of cross-lingual sentiment analysis (CLSA). [Coverage] We searched “TS=cross lingual sentiment OR cross lingual word embedding” in Web of Science database and 90 representative papers were chosen for this review. [Methods] We elaborated the following CLSA methods in detail: (1) The early main methods of CLSA, including those based on machine translation and its improved variants, parallel corpora or bilingual sentiment lexicon; (2) CLSA based on cross-lingual word embedding; (3) CLSA based on Multi-BERT and other pre-trained models. [Results] We analyzed their main ideas, methodologies, shortcomings, etc., and attempted to reach a conclusion on the coverage of languages, datasets and their performance. It is found that although pre-trained models such as Multi-BERT have achieved good performance in zero-shot cross-lingual sentiment analysis, some challenges like language sensitivity still exist. Early CLSA methods still have some inspirations for existing researches. [Limitations] Some CLSA models are mixed models and they are classified according to the main methods. [Conclusions] We look into the future development of CLSA and the challenges facing the research area. With in-depth research of pre-trained models on multi-lingual semantics, CLSA models fit for more and wider languages will be the future direction.

Keywords: Cross Lingual; Multi-lingual; Sentiment Analysis; Bilingual Word Embedding

PDF (1427KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

徐月梅, 曹晗, 王文清, 杜宛泽, 徐承炀. 跨语言情感分析研究综述*[J]. 数据分析与知识发现, 2023, 7(1): 1-21 doi:10.11925/infotech.2096-3467.2022.0472

Xu Yuemei, Cao Han, Wang Wenqing, Du Wanze, Xu Chengyang. Cross-Lingual Sentiment Analysis: A Survey[J]. Data Analysis and Knowledge Discovery, 2023, 7(1): 1-21 doi:10.11925/infotech.2096-3467.2022.0472

1 引言

跨语言情感分析(Cross-Lingual Sentiment Analysis,CLSA)旨在借助某一种或多种源语言(一般为情感资源丰富的语种,如英语),对另一种语言(目标语言,一般为情感资源匮乏的语种)开展情感分析工作。CLSA隶属于情感分析(Sentiment Analysis)领域,通过挖掘文本中的主观信息来判断其情感倾向。与单语言情感分析研究相比,跨语言情感分析重点需要解决不同语言间的语法、语用等差异,搭建不同语言之间的知识关联以实现语言间的资源共享,使得将英语语言下的情感分析成果用于开展其他语种的情感分析研究,从而解决大部分非英语语言所面临的情感资源匮乏问题。

根据Ethnologue数据库统计分析,全球现有7 139种语言。而情感分析研究集中在少数几种语言、尤其是英语语言下开展,因此英语积累了丰富的情感资源,如标注文本、情感词典等;而其他语言的情感分析研究则相对较少、情感语料资源较为匮乏。如果针对每一种语言进行情感数据的标注,将耗费大量的人力物力,因此,跨语言情感分析提供了一种有效的解决方法。在经济全球化背景下,跨语言情感分析的意义日益凸显,逐渐成为情感分析领域的重要方向之一。

CLSA最早可追溯到2004年,研究学者首次探索性地通过机器翻译(Machine Translation)来解决跨语言情感分析问题[1]。诸多研究表明,CLSA能够将英语语言下积累的研究成果在其他语言情境中推广应用。例如,Wan[2]利用英语标注的情感分类数据,通过机器翻译实现对中文文本的情感分类预测。Vulić等[3]通过跨语言词向量实现英语和荷兰语的相互检索。

CLSA对一些目标语言的性能接近于单语言情感分析性能,但仍有一些问题尚未解决。例如,基于机器翻译的跨语言情感分析方法仍难以避免词汇覆盖(Vocabulary Coverage)问题,即由于不同语言之间语义表达和书写风格的差异,从单一源语言翻译的文本不能覆盖目标语言的所有词汇。此外,基于双语词嵌入的跨语言情感分析方法无法很好地解决语言对之间的语义差异(Semantic Difference)问题,即两种语言的语义差异较大,使得互为翻译的两个单词的词向量表示差距较大,难以得到高质量的双语词向量表示。

本文整理和回顾了2004年至今、尤其是近10年间跨语言情感分析的文献。以Web of Science数据库为检索平台,构造检索式TS=cross lingual sentiment OR cross lingual word embedding,选择相关性较高的656篇文献作为研究基础,延伸阅读相关文献后最终选取90篇作为参考文献,按照CLSA的研究脉络以及CLSA采用的模型方法进行分类,并对各模型的原理、代表性研究、采用的实验数据集等进行总结和比较。

CLSA的研究发展与机器学习、神经网络模型密不可分,从总的研究脉络上可分为两个阶段:早期是跨语言情感分析研究阶段,主要包括基于机器翻译及其改进的方法、基于平行语料库(Parallel Corpora)的方法和基于双语情感词典的方法;自2013年Mikolov等[4]提出分布式词向量表示模型Word2Vec,以及随着机器学习算法和神经网络模型的快速发展,跨语言情感分析进入了新的研究阶段,不再停留在对基于机器翻译或基于平行语料库等有监督(Supervised)方法的改进,而是逐渐发展到弱监督(Weakly-Supervised)、完全无监督(Fully-Unsupervised)的跨语言情感分析。本文贡献如下:

(1)系统地总结跨语言情感分析的研究方法,按照研究方法和技术进行细分归类,总结CLSA研究的主要思路、方法模型以及不足之处等。

(2)概述现有跨语言情感分析覆盖的语言、数据集及其性能。不同语言对之间的语义距离不同,使得不同语言对的CLSA性能差别很大,即存在语言敏感性(Language-Sensitive)问题。现有跨语言情感分析的性能验证大多在少数几个语种开展,一定程度上限制了跨语言情感模型的应用推广。本文对现有跨语言情感分析覆盖的语言、数据集及其性能进行总结分析,为语言无关的跨语言情感模型的研究提供思路借鉴。

(3)概述跨语言情感分析研究中面临的重要挑战、重要问题,并提出有待探索的研究方向。

2 早期的跨语言情感分析研究

2.1 基于机器翻译及其改进的方法

2004年,Shanahan等[1]首次探索性地通过机器翻译解决跨语言情感分析问题,如图1所示。在之后近10年间,机器翻译一直是跨语言文本情感分析的主要方法,其基本思想是使用机器翻译系统将文本从一种语言翻译到另一种语言[5-9],从而实现多语言文本到单一语言文本的转换。

图1

图1   基于机器翻译的跨语言情感分析方法示意[1]

Fig.1   Cross-Lingual Sentiment Analysis Based on Machine Translation


将源语言的带标注数据翻译为目标语言[10-11],利用翻译后的数据训练情感分类器,实现对目标语言未标记数据的预测。也有一些研究将目标语言的未标注数据翻译为源语言,在源语言中进行情感分类预测[7-8,12]。此外,一部分研究兼顾上述两种翻译方向,创建从源语言到目标语言和从目标语言到源语言两种不同的视图,以弥补一些翻译局限(Translation Limitations)[9,13-15]

由于目标语言和源语言之间存在固定的内在结构(Fixed Intrinsic Structure)和不同的术语分布(Term Distribution),即便采用最好的翻译系统,机器翻译的失误仍然会带来约10%的文本情感扭曲或反转现象[15]。为克服机器翻译质量对跨语言情感分析的影响,相关研究尝试对基于机器翻译的跨语言情感分析进行改进,具体的改进思路有:借助对源语言情感词典的翻译[16]、对源语言的训练集进行优化[17]、设置标准数据集对机器翻译进行优化[18]、使用多种源语言的标记数据[19]以及将目标语言未标记数据[20]添加到训练集。部分早期跨语言情感分析的代表研究如表1所示,其中*标注的是近年关于基于机器翻译改进的代表性论文,&标注的是近年基于平行语料库的代表性论文。

表1   早期跨语言情感分析的代表研究

Table 1  Representative Researches on Early Cross-Lingual Sentiment Analysis

作者模型特点数据来源语种准确率/%
He*[16]LSM借助对源语言情感词典的翻译,得到目标语言的情感词先验知识,纳入到LDA模型进行学习中国商品评论数据英-中81.41
Zhang等*[17]ATTM基于训练集选择,将与目标语言高度相似的标记样本放入训练集中,构建一个以目标语言为中心的跨语言情感分类器测试集: COAE2014;
训练集:中国科学院计算技术研究所带标记中文数据集
中-德84.3
中-英87.7
中-法80.1
中-西83.3
Al-Shabi等*[18]SVM、NB、KNN设置标准数据集对机器翻译优化,以此找到最优的基线模型,并确定了机器翻译数据中的噪声与情感分类精度之间的关系亚马逊产品评论英-阿
Hajmohammadi等*[19]MLMV将多种源语言的标记数据作为训练集,克服从单一源语言到目标语言的机器翻译过程导致的泛化问题亚马逊产品评论;
Pan Reviews数据集
英+德-法79.85
英+法-德81.55
英+法-日73.73
英+日-中76.65
Hajmohammadi等*[20]DBAST将目标语言无标记文档通过机器翻译转化为源语言文档后,从中选择信息量最大、最可信的样本进行标记以丰富训练数据亚马逊产品评论;
Pan Reviews数据集
英-法78.63
英-中71.36
英-日70.04
Hajmohammadi等*[21]Graph-Based
Semi-Supervised
Learning Model
提出一种基于多视图的半监督学习模型,将目标语言中未标记的数据合并到多视图半监督学习模型中,即在文档级分析中加入目标语言内在结构的学习亚马逊产品评论;
Pan Reviews数据集
英-中73.81
英-日72.72
Lu等&[22]Joint联合双语有情感标注的平行语料库和未标记平行数据,为每种语言同时学习更好的单语情感分类器MPQA; NTCIR-EN;
NTCIR-CH; ISI中-
英平行语料库
英-中83.54
中-英79.29
Meng等&[23]CLMM不依赖机器翻译标记目标语言文本,从未标记的平行语料库中通过拟合参数学习情感词,扩大词汇覆盖率MPQA; NTCIR-EN;
NTCIR-CH; ISI中-
英平行语料库
英-中83.02
Gao等&[24]BLP基于平行语料库和词对齐构建双语词图,从现有源语言(英语)情感词典中学习到目标语言的情感词典General Inquirer Lexicon;ISI中-英平行语料库;NTCIR情感语料库英-中78.90
Zhou等&[25]NMF提出一个子空间学习框架,利用少量文档对齐的并行数据和双语下非并行数据,缩小源语言和目标语言的差距亚马逊产品评论英-法81.83
英-德80.45
英-日75.78
法-英79.47
德-英79.56
日-英78.79

新窗口打开| 下载CSV


为解决基于机器翻译的CLSA存在的泛化问题,尤其是当源语言和目标语言的文本属于不同领域时效果不佳的问题,He[16]提出一种弱监督的潜在情感模型(Latent Sentiment Model, LSM),在隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)模型中融入从源语言的情感词典中通过机器翻译得到的目标语言可用的情感先验知识。LSM将该情感先验知识纳入LDA模型中对目标语言文本进行情感分类,LDA主题分类的类别数等于情感分类的类别数。

为使源语言的训练集合样本更接近目标语言的文本,Zhang等[17]提出对源语言的训练集合样本进行优化选择(Refinement),通过相似度计算将与目标语言高度相似的样本作为改进后的训练样本,构建一个以目标语言为中心的跨语言情感分类器,通过选择有效的训练样本来消除源语言和目标语言之间的语义分布差异。Al-Shabi等[18]研究机器翻译引入的噪声对CLSA的影响,提出通过设置标准数据集优化机器翻译,并以英语为源语言、阿拉伯语为目标语言进行实验。首先通过英语的标记数据集训练多个机器学习算法,例如朴素贝叶斯、支持向量机,再用训练好的模型预测目标语言的情感类别,选出表现最好的模型;最后通过该模型确定噪声与情感分类精度之间的关系。研究表明,该方法训练出的最优模型能够为阿拉伯语这类资源稀缺的语种生成可靠的训练数据。

为了改进基于机器翻译方法的跨语言情感分析,Hajmohammadi等[19-21]首先从增加源语言种类入手,提出一种基于多源语言多视图的CLSA模型[19]。该模型将多个源语言的标记数据作为训练集,尝试克服单一源语言的机器翻译所导致的词汇覆盖问题,使不能被覆盖的词汇有可能从另一源语言的翻译中得到覆盖。随后,提出基于机器翻译将目标语言的未标记数据整合到学习过程中,进一步提高性能[20]。利用主动学习从翻译成源语言的目标语言无标记文本中选择信息量最大、最可信的样本进行人工标记,丰富只有源语言带标记文本的训练数据。最后,为克服源语言和目标语言的术语分布不同的问题,提出一种基于多视图的半监督学习模型[21],将多种源语言的标记数据作为训练集,通过自动机器翻译从源语言和目标语言的文档中创建多个视图,并将目标语言中未标记的数据合并到多视图半监督学习模型中,从而提高跨语言情感分析的性能。

综上,为解决基于机器翻译的CLSA存在的泛化问题、词汇覆盖问题、源语言和目标语言之间的语言鸿沟问题,相关研究针对特定问题展开探索,取得了较好的效果,然而仍然没有获得一个一致的解决机器翻译根源性问题的方案。这些改进工作大多采用亚马逊产品评论数据集,数据集的多样性不够,难以全面支持和反映所改进方法的性能效果。

2.2 基于平行语料库的方法

平行语料库是由相互翻译的文本组成的语料库。基于平行语料库的CLSA无需借助翻译系统,以平行或可比语料(Comparable Corpora)为基础完成源语言和目标语言的空间转换[26],是早期CLSA的主要方法之一。

基于平行语料库的CLSA代表性论文(见表1),主要思路为:借助目标语言的未标记数据[22]、通过平行数据的学习来扩大词汇覆盖率[23]、通过平行语料库生成目标语言的情感词典[24]以及借助少量并行数据和大规模的不并行数据[25]

基于平行语料库的CLSA方法示意如图2所示。平行语料库包括大量平行句对的集合,通过将平行句对中两个对齐的单词连接起来,构建语言间的映射关系。例如,图2(b)是两个表达相同语义的中英文句子,即一组平行句对。句对中的中文单词“快乐”与英语单词“happy”对应,可以说这两个单词对齐(Word-Aligned)。图2(a)将平行语料库中两种语言的单词作为节点,通过语料库的单词对齐及同义词、反义词等信息建立节点间联系,从而构建语言间的关系。

图2

图2   基于平行语料库的CLSA方法[24]

Fig.2   Structure of CLSA Based on Parallel Corpora


Lu等[22]首次提出借助无标注的平行语料库提高基于有标注的平行语料库获得的情感分类器性能。认为未标注的语料库中的平行语句也应具有相同的情感极性,因此提出在句子级别同时联合每种语言的标记数据和未标记平行数据,使用标记数据基于最大熵分类器进行期望最大化(Expectation Maximization,EM)迭代更新,逐步提高两个单语分类器对未标记平行语句的预测一致性,以最大化平行语料库的预测一致性。实验表明,该方法对两种语言的情感分类准确率均有提升。

然而,Lu等[22]要求两种语言都有带标记的数据,这些数据通常不易获得。因此,Meng等[23]提出一种生成性跨语言混合模型(Generative Cross-Lingual Mixture Model, CLMM),去除对目标语言标记数据的要求,不依赖不可靠的机器翻译标记数据,而是利用双语并行数据弥合源语言和目标语言之间的语言差别。CLMM通过拟合参数最大化双语平行数据的可能性,从未标记的平行语料库中学习情感词,显著提高词汇覆盖率,从而提高跨语言情感分类的准确率。

在将情感信息从源语言传递到目标语言的过程中,现有方法[27-28]使用少量词汇翻译源语言,从而导致目标语言的情感词汇覆盖率较低。为解决该问题,Gao等[24]提出一种基于平行语料库和词对齐构建的双语词图方法,从现有源语言(英语)情感词典中学习到目标语言的情感词典,从而将情感信息从英语情感词转移到目标语言的情感词上。

大规模文档对齐(Document-Aligned)或者句子对齐(Sentence-Aligned)的平行数据很难获得,通常只存在少量的平行数据以及大量不平行的各语言下的文本。Zhou等[25]提出一种子空间学习框架同时学习源语言和目标语言间少量的文档对齐数据和大量的非对齐数据。研究者认为,文档对齐的并行数据在两种不同的语言中描述着相同的语义,它们应该在相同的分类任务中共享相同的潜在表示,通过此共享表示来减少源语言和目标语言之间的语言差距[25]

上述基于平行语料库的研究,共性之处在于借助平行语料库建立两种语言的单词对应关系,从语义和概念上弥合源语言和目标语言之间的术语分布和结构差异,避免机器翻译的噪声问题。传统基于平行语料库的方法需要大量并行或标记数据,往往不易获得;故上述相关研究通过采用可比语料库、非并行数据和未标记数据等,减少对并行标记数据的依赖。

2.3 基于双语情感词典的方法

文档级或句子级的机器翻译容易引入较大的翻译误差,而词语级别的机器翻译准确率较高,因此,双语情感词典(Bilingual Sentiment Lexicon)被提出用于跨语言情感分析。基于双语情感词典的CLSA,首先构建双语情感词典,再计算目标语言文本中各个单词的情感分值得到总文本的情感分值,作为文本情感判别的重要依据。

基于双语情感词典的CLSA属于一种无监督方法,无需借助源语言和目标语言的标注数据,天然地具有一定的优势。近年来,一些学者致力于研究双语情感词典的构建这一子任务,进而完成CLSA任务。

构造双语情感词典的主要方法有基于机器翻译、基于同义词词集(Synset)和基于平行语料库的方法。双语情感词典的生成质量评估主要采用覆盖率和准确率两种标准:覆盖率是统计生成的情感词典所包含的单词在实验所用单词表中所占比例;而准确率是统计分类正确(积极/消极)的单词在实验所用单词表中的所占比例。

基于机器翻译的双语情感词典构建,将已有单语情感词典经机器翻译后得到跨语言情感词典,实现较为简单。Darwich等[29]将印尼语WordNet和英语WordNet通过机器翻译后映射得到马来西亚语的情感词典,该方法对于资源较为丰富的语言有较好的表现,但是对于资源相对稀缺的语言表现并不理想:经过5轮迭代后生成的情感词典准确性只有0.563。

基于同义词词集的双语情感词典构建利用现有单语同义词词集,通过一些映射方法得到跨语言情感词典。Nasharuddin等[30]设置跨语言情感词典生成器(Cross-Lingual Sentiment Lexicon Acquisition),根据同义词集和词性将马来西亚语情感词典映射到英语情感词典中形成双语词典。Sazzed[31]通过英语WordNet和孟加拉语评论语料库获取孟加拉语近义词集,并以此生成孟加拉语情感词典。

基于平行语料库的双语情感词典构建是近年来较为常用的双语情感词典构建方法,该方法通过对两种语言的平行语料库进行分析和抽取后构建双语情感词典。Vania等[32]基于英语和印度尼西亚语的平行语料库,从中抽取情感模式(Sentiment-Pattern)信息并构建双语情感词典。Chang等[33]使用多语言语料库基于Skip-Gram生成保留上下文语境的单语词向量表示,而后计算英语词向量与其对应的翻译为中文的词向量之间的最优转化矩阵,通过这个转化矩阵将英语的情感单词词向量转化为中文空间中的词向量,利用余弦相似度构造中英跨语言情感词典。

完成双语情感词典构建后,研究者基于双语情感词典开展跨语言情感分析研究。例如,Gao等[24]提出LibSVM模型,结合双语情感词典对NTCIR数据集中的数据进行情感分类。He等[34]基于中文-越南语双语词典,利用卷积神经网络对中越新闻进行情感分析研究。Zabha等[35]使用中文-马来语双语情感词典,利用情感得分统计(Term Counting)方法对马来语的推特文本进行情感分析。

综上,基于双语情感词典能够进行跨语言情感分析,但也存在一定局限性:跨语言情感分析的性能一方面依赖于所构建的双语情感词典的质量,另一方面还受到跨语言情感预测所使用方法/模型的影响,例如采用卷积神经网络或基于情感得分统计的方法等。基于双语情感词典的CLSA属于一种无监督的方法,相比其他有监督方法具有天然优势。

3 跨语言词嵌入生成研究

随着分布式词向量表示模型Word2Vec[4]、GloVe[36]和ELMO[37]被相继提出,文本的语义开始通过词嵌入(Word Embedding)向量进行表示。跨语言词嵌入(Cross-Lingual Word Embedding,CLWE)能够获得源语言和目标语言在同一语义空间下的词向量表示。基于CLWE,含义相同、来自不同语言的单词具有相同或相似的向量表征。英语和西班牙语的一组单词在特征空间中的CLWE分布情况如图3所示。可见,语义相同的双语单词在空间中的位置彼此靠近,如西班牙单词“gato”与英文单词“cat”的位置相比于“dog”或“pig”更为接近。基于CLWE的跨语言情感分析依赖于CLWE的生成质量,近年来,许多研究者致力于开展CLWE生成研究。

图3

图3   英语和西班牙语的CLWE示意[38]

Fig.3   Schematic of CLWE in English and Spanish


早期的CLWE主要采用有监督方法,依赖于源语言和目标语言之间的平行语料库或双语种子词典[39-41]作为跨语言监督信号。然而对于大多数语言,这样的平行语料和双语种子词典并不容易获得。因此,半监督方法被提出,尝试用更小规模的语料或者种子词典减少对监督信息的依赖,并在一些语言对上取得了较好的结果,例如在英-法双语词典生成任务中获得37.27%的翻译准确率,在英-德双语词典生成任务中获得接近40%的翻译准确率[38]。近年来,无监督的方法成为跨语言词嵌入生成的研究热点[42-45],主要原因在于无监督方法无需借助任何平行语料库或者种子词典,适用的语种范围更广泛,可移植性更强。总结有监督、半监督和无监督跨语言词嵌入生成的研究思路、优点和缺点,如表2所示。

表2   跨语言词嵌入生成方法分类及总结

Table2  Classification and Summarization of Cross-Lingual Word Embedding Generation

方法主要思路优点 / 缺点
有监督的方法借助大量的双语平行文本优点:将平行文本蕴含的嵌入空间(Embedding Space)信息作为参考,有效保证映射的效果;
缺点:双语平行语料难以获得,尤其是大规模的双语平行语料。
半监督的方法基于小样本的启发式双语种子词典作为映射锚点,学习转移矩阵优点:只需要用到小样本的种子词典,较易获得;
缺点:本质上是利用种子词典对齐词空间的映射矩阵来代替整个空间的映射矩阵,不一定能代表源-目标语言整个空间的映射矩阵。
完全无监督的方法借助大规模的非平行语料资源,通过生成对抗网络、自动编码器-解码器等模型学习双语之间的转换矩阵优点:无需借助平行语料库/双语词典;
缺点:存在初始化不鲁棒问题,对于初始解要求比较高,不同的初始解对结果影响较大;在缺少监督信息的情况下,容易陷入局部最优解。

新窗口打开| 下载CSV


3.1 基于有监督的跨语言词嵌入生成

有监督的CLWE模型需要依靠大量的双语平行文本,根据生成CLWE方法和模型的不同,现有工作在对情感表达的语言差异建模[46]、借助机器翻译的单词词对[47]、在跨语言词向量中加入情感信息[48]、基于方面级(Aspect-Level)细粒度的跨语言词嵌入[49]以及研究单词的词序调整对跨语言词嵌入生成的影响[50]等方面开展有监督的跨语言词嵌入生成研究。

Chen等[46]认为现有的跨语言情感分析中语言的差异性(Language Discrepancy)被大大忽略,因此提出对情感表达中固有的语言差异进行建模,以更好地进行跨语言情感分析。给定源语言及其翻译文档构成的混合情感空间,语言差异被建模为源语言和目标语言在每个特定极性下的固定转移向量,基于目标语言文档与其翻译副本之间的转移向量来确定目标语言文档的情感。

Abdalla等[47]采用向量空间矩阵转换的方法,借助由机器翻译获得的2 000个单词对,计算从源语言到目标语言向量空间的转换矩阵。研究结果发现,当单词对的翻译质量较低时,情感信息仍然是高度保存的,不影响词向量转换矩阵的生成质量。为更好地适应跨语言情感分析任务,Dong等[48]在Abdalla等[47]工作的基础上,在生成跨语言词向量的同时加入情感信息,基于标注的双语平行语料库,将潜在的情感信息编码到CLWE模型中。

现有大部分跨语言情感分析模型仅覆盖较粗糙的情感分析,如句子级情感分析、文档级情感分析。Akhtar等[49]关注于更加细粒度的方面级情感分析,结合负采样的双语连续跳跃元语法的模型(Bilingual-SGNS)对两种语言进行词嵌入向量表示,使两种语言被映射到同一共享向量空间中。在方面级的多语言情感分析任务中,该模型的准确率达到76%;在实体级跨语言情感分析任务中,该模型的准确率也达到60%以上。

Atrio等[50]注意到语言之间的词序存在差异,进而研究词序对跨语言情感分析研究的影响。以英语为源语言、西班牙语和加泰罗尼亚语为目标语言的双语平行语料库作为数据集,对目标语言进行词序调整,包括名词-形容词调整(Noun-Adjective)和全部调整(Reordered)。研究发现,词序调整有助于短文本的情感分析任务,例如方面级或者句子级别,而不适用于文档级别的CLSA任务。

综上,有监督的CLWE生成模型的优点是能够将平行文本蕴含的嵌入空间信息作为参考,有效保证了双语空间的映射效果。

3.2 基于半监督的跨语言词嵌入生成

基于半监督的CLWE方法认为不同语言同一个含义的词嵌入向量之间具有相似性(Isometry)。基于该假设,半监督方法舍弃了大量的平行语料,利用小样本的启发式种子词典,将种子词典表示为D=xi,yii 1,n作为映射锚点(Anchor),xi为源语言单词,yixi在目标语言对应的翻译词,每个单词表示为d维的向量,nD中单词的个数。令X表示源语言的单语词向量空间,Y表示目标语言的单语词向量空间,则XY都是大小为n×d的矩阵。通过学习源语言和目标语言单语词向量空间的相似性,获得两种语言间的映射矩阵W,使得WXY这两个空间尽可能相近,即优化以下目标函数:

W*=argminWWX-Y

其中,Wd×d维矩阵。对于公式(1)目标函数的求解是一个迭代阶段。得到W*以后,对于任意一个源语言单词wx,通过与转移矩阵W*点乘将其映射到空间Y中,然后利用聚类算法,如K-NN算法,找到该点的最近邻点wy,则wy就是wx的互译词。

根据采用的种子词典以及生成转移矩阵W的方法不同,现有研究对于半监督CLWE生成的思路有:使用双语同根词[51]、基于多语言概率模型得到种子词典[52]、利用单语词向量的相似度构造种子词[38]、在CLWE中考虑emoji表情信息[53]以及考虑句子的情感信息[54]

Peirsman等[51]在构建双语词向量空间时舍弃了双语平行语料库或大样本双语词典,而使用双语同根词(Cognates)构成小样本种子词典,并以此作为初始解构造双语词向量空间,生成双语词向量。Vulić等[52]认为两种语言的单词映射存在一对一或一对多的映射关系。基于一对一映射关系,直接构造一对一映射的种子词典作为初始解;基于一对多映射关系,使用多语言概率主题模型(Multilingual Probabilistic Topic Modeling)生成一对一映射的种子词典,并只保留对称翻译词对作为初始解进行CLWE的生成。

Artetxe等[38]基于两种语言的单语词向量之间的相似度构造种子词典,将相似度最接近的两个单词看作对应的翻译,并加入种子词典中。研究结果表明,基于构造好的初始解,通过迭代自学习方法能够从25个单词对的种子词典中得到高质量的CLWE映射;该方法在初始解不够好时容易陷入局部最优解,因此不适用于规模较小的CLWE生成。

Chen等[53]认为微博和推特用户评论中的表情符号可以作为跨语言情感分析的纽带,提出一个基于表情的CLSA表征学习框架Ermes。在Word2Vec词向量模型的基础上,Ermes使用emoji表情符号补充情感监督信息,基于注意力的堆叠双向LSTM模型,获得源语言和目标语言融合情感信息的句子表征。在这个过程中,需要借助机器翻译系统获得与源语言标注数据对应的目标语言伪平行语料。

Barnes等[54]提出一种双语情感词嵌入(Bilingual Sentiment Embeddings, BLSE)表示,借助一个小的双语词典和源语言标注的情感数据,得到源语言和目标语言映射到同一个共享向量空间、同时携带情感信息的变换矩阵。以英语为源语言,西班牙语和加泰罗尼亚语为目标语言进行验证,BLSE能够借助源语言的情感信息提升CLSA性能,但是也容易在功能词的向量表示上分配太多的情感信息。

综上,基于半监督的CLWE方法舍弃了大量的平行语料,利用对齐的种子词典学习语言映射矩阵W,本质上是利用种子词典对齐词空间的映射矩阵来代替整个空间的映射矩阵,该方法存在一定的局限性。尤其是对于语义距离比较远的两个语种,利用种子词典学到的映射矩阵来代替整个空间的映射矩阵会引入较大的误差,例如英语和日语之间。因此,基于半监督方法的CLWE应同时兼顾种子词典和词嵌入向量中丰富的信息,引导映射矩阵W的学习。

3.3 基于无监督的跨语言词嵌入生成

相较于有监督以及半监督的方法,基于无监督的CLWE生成无需借助双语平行语料,其主要思路是:利用单语词向量模型获得源语言和目标语言的词向量空间XY借助大规模的非平行语料资源,通过生成对抗网络、自动编码器-解码器等模型挖掘两种语言表示之间存在的关系,并通过上述模型学习得到双语之间的转换矩阵WSWT,将两种语言的词嵌入表示映射至同一空间中,如图4所示。

图4

图4   基于无监督方法的CLWE结构示意

Fig.4   Structure of Cross-Lingual Word Embedding Based on Unsupervised Approach


现有研究对无监督的CLWE生成采用以下思路提高性能:优化词语相似度矩阵[55]、使用对抗性编码器[44,56]、优化迭代自学习的初始解[57]、引入同一语言家族的多个源语言等方法[58]

Gouws等[55]发现有监督及半监督的CLWE普遍存在两个问题:一是训练耗时过长,不适用于大规模数据集;二是过分依赖双语平行语料库。因此,Gouws等[55]首次尝试将无监督方法应用到跨语言词嵌入中,即无需单词级别的双语平行语料库,提出一种BilBOWA模型生成CLWE。该方法在英语-德语、德语-英语CLSA任务中的准确率分别达到86.5%和75.0%,远高于Hermann等[59]提出的BiCVM模型以及Chandar等[60]提出的BAEs模型。同时,BilBOWA优化了词向量映射矩阵的计算,大大缩短训练时间,仅需BAEs[60]训练时间的1/800。

Barone[44]首次尝试使用对抗性自动编码器(Adversarial Auto-Encoder,AAE)将源语言的词嵌入向量映射到目标语言的词嵌入向量空间中。该方法能够在一定程度上提高两种语言的语义信息转换,但是如果训练数据不是平行语料,实验结果并不理想。Shen等[56]利用AAE学习双语的平行文本,通过线性变换矩阵将两种语言映射到同一共享向量空间,将其作为BiGRU模型的输入,获得最终的预测结果。将AAE引入BiGRU后,提升效果明显,在亚马逊产品评论数据集上的F1值达到78.6%。

Artetxe等[38]等在半监督CLWE方法的基础上,提出一种无监督模型Vecmap来构造初始解,摆脱对小规模种子词典的依赖。Vecmap模型基于假设:不同语言中具有相同语义的单词应该具有相同的分布,以此构造初始解的单词对。该方法在英语-意大利语、英语-德语双语词典生成任务中均达到48%的准确率,在英语-西班牙语双语词典生成任务中也获得了37%的准确率[57]

Rasooli等[58]在无监督的基础上考虑了语系家族对于CLWE的影响,选取来自同一语言家族、资源丰富的语言作为多个源语言,通过多种源语言的方法缩小目标语言和源语言之间的差异,并采用标注投影和直接迁移这两种不同场景下情感分析的迁移方法,为那些没有标记情感训练数据且机器翻译能力较小的语言设置鲁棒性的情感分析系统。结果表明,使用同一语系家族的语言能够提升跨语言情感分析任务的准确度,例如,斯洛文尼亚语和克罗地亚语、英语和瑞典语。

综上,基于无监督的CLWE能够获得较好的双语词嵌入向量,并且在下游CLSA任务上有比较突出的表现。例如,BilBOWA模型[55]在英语-德语的CLSA中准确率达到85%以上。TL-AAE-BiGRU模型[56]在英语-中文、英语-德语的亚马逊评论数据集上F1值达到78%以上。

尽管基于无监督的CLWE无需借助双语平行文本或语料库,减少了对数据的依赖,在性能上也有较好的表现,但仍存在一定的缺点。Gouws等[61]研究发现,基于无监督的CLWE模型对于语言对的选择非常敏感。对于部分语言对,依靠完全无监督的CLWE难以得到高质量的双语词向量表示。此外,无监督CLWE基于假设:不同语言间具有相同含义的单词,应具有相似的词嵌入向量,从而依靠单语下的词嵌入向量生成CLWE。这一假设在语义和语法结构相差较大的两个语种之间不一定成立,例如英语-日语、西班牙语-中文语言对。因此,无监督的CLWE对初始解的要求较高,容易在迭代过程中陷入局部最优解甚至较差解中。

上述有监督、半监督和无监督的基于跨语言词嵌入的CLSA相关研究工作总结如表3所示。

表3   基于跨语言词嵌入的跨语言情感分析

Table3  Cross-Lingual Sentiment Analysis Based on CLWE

作者模型特点数据来源语种准确率/%
Chen等[46]RBST将语言差异建模为源语言和目标语言在每个特定极性下的固定转移向量,基于此向量确定目标语言文档情感亚马逊产品评论数据;
微博评论数据
英-中81.5
Abdalla等[47]SVM;
LR分类器
借助由机器翻译获得的单词对来计算从源语言到目标语言向量空间的转换矩阵谷歌新闻数据集;西班牙十亿单词语料库;维基百科数据;谷歌万亿单词语料库;中文酒店评论数据集英-中F: 77.0
英-西F: 81.0
Dong等[48]DC-CNN基于标注的双语平行语料库,将潜在的情感信息编码到跨语言词向量中SST影评;TA旅游网站评论;AC法国电视剧评论;SE16-T5餐馆评论;AFF亚马逊美食评论英-西85.93
英-荷79.30
英-俄93.26
英-德92.31
英-捷93.69
英-意96.48
英-法92.97
英-日88.08
Akhtar等[49]Bilingual-SGNS结合负采样的双语连续跳跃元语法模型构建两种语言的词嵌入向量表示并映射至同一空间,用于细粒度方面级情感分析印地语ABSA数据集;英语SemEval-2014数据集英-印多语言设置:76.29
跨语言设置:60.39
Atrio等[50]SVM; SNN; BiLSTM对目标语言进行词序调整以提高短文本情感分析的性能OpeNER语料库;
加泰罗尼亚MultiBooked数据集
英-西Bi: F=65.1
4-C: F=35.8
英-加Bi: F=65.6
4-C: F=38.1
Peirsman等[51]Cross-Lingual Selectional Preferences Model使用双语同根词构成的小样本种子词典作为初始解构造双语词向量空间,生成双语词向量TiGer语料库;AMT西-英47.0
德-英48.0
Vulić等[52]MuPTM利用多语言概率模型对单词间一对多的映射关系生成一一映射的种子词典,以此作为初始解生成跨语言词向量维基百科文章西-英89.1
意-英88.2
Artetxe等[38]Self-Learning Framework基于两种语言单语词向量间的相似度构造种子词典英-意数据集;
ukWaC+Wikipedi+BNC;itWaC;Europarl;OPUS;SdeWaC;28亿词Common Crawl语料库;RG-65 & WordSim-353跨语言数据集
英-意37.27
英-德39.60
英-芬28.16
Chen等[53]Ermes将emoji表情符号作为补充情感监督信息,获得源-目标语言融合情感信息的句子表征亚马逊产品评论数据;推特数据英-日80.17
英-法86.5
英-德86.6
Barnes等[54]BLSE借助一个小的双语词典和源语言带标注的情感数据,得到双语映射到同一个共享向量空间、同时携带情感信息的变换矩阵OpeNER;MultiBooked数据集英-西Bi:F=80.3
4-C:F=50.3
英-加Bi:F=85.0
4-C:F=53.9
英-巴Bi:F=73.5
4-C:F=50.5
Gouws等[55]BiBOWA利用粗糙的双语数据,基于优化过的词语相似度矩阵计算方法无监督地生成跨语言词向量路透社RCV1/RCV2多语语料库;EuroParl英-德86.5
德-英75.0
Barone等[44]AAE首次使用对抗性自动编码器将源语言词向量映射到目标语言词向量空间中维基百科语料库;路透社语料库;2015 News Commentary语料库英-意
英-德
Shen等[56]TL-AAE-
BiGRU
利用对抗自动编码器学习双语平行文本,通过线性变换矩阵将双语映射到同一向量空间亚马逊产品评论数据英-中F: 78.57
英-德
Artetxe等[57]Vecmap利用无监督模型Vecmap构造初始解,去除对小规模种子词典的依赖英-意数据集;EuroParl;OPUS;英-意48.13
英-德48.19
英-芬32.63
英-西37.33
Rasooli等[58]NBLR+
POSwemb;LSTM
使用多种源语言缩小源-目标语言间的差异,并采用标注投影和直接迁移两种迁移方法为资源稀缺的语言构造健壮的情感分析系统推特数据;SentiPer;SemEval 2017 Task 4;BQ;EuroParl;LDC;GIZA++;维基百科文章单源设置
英-中F: 66.8
英-德F: 51.0
英-瑞典F: 49.0
英-克、英-匈、英-波斯、英-波兰等实验性能详见文献[58]
多源设置
F: 54.7
波兰F: 54.6
F: 54.0
阿拉伯语、保加利亚语、中文、克罗地亚语等实验性能详见文献[58]

新窗口打开| 下载CSV


4 基于生成对抗网络的方法

生成对抗网络(Generation Adversarial Network,GAN)由Goodfellow等[62]提出,在图像生成任务方面取得了巨大成功,近年来被应用于CLSA。

基于GAN的跨语言情感分析,其核心思想是生成-对抗,如图5所示,一般具有三个模块:特征提取器、语言鉴别器和情感分类器。

图5

图5   基于生成对抗网络的跨语言情感分析模型

Fig.5   Structure of Cross-Lingual Sentiment Analysis Based on GAN


具体地,特征提取器作为生成器提取文本特征;语言鉴别器判别特征来源是源语言还是目标语言;二者组成生成对抗网络并进行训练。每次迭代中,鉴别器首先提升鉴别语言能力,特征提取器随后尽力混淆语言鉴别器,训练结果是特征提取器使得语言鉴别器完全无法鉴别语言,即认为它能提取语言无关特征,将该特征运用于跨语言的情感分类。最后,特征提取器和情感分类器组合并输入源语言的带标注数据进行训练,实现对目标语言的情感分析。

基于GAN的跨语言情感分析代表工作有Chen等[63]提出的ADAN模型和Feng等[64]提出的CLIDSA/CLCDSA模型。同时,生成对抗网络的变种也被广泛应用于跨语言情感分类,如条件生成对抗网络(Conditional GAN)、基于Wasserstein距离的Wasserstein GAN模型等。

Chen等[63]提出一种对抗深度平均网络模型(Adversarial Deep Averaging Network, ADAN),通过特征提取器和语言鉴别器的多次迭代提取源语言和目标语言中的语言无关特征。在对抗学习中尝试最小化源语言和目标语言分布的Wasserstein距离,保证特征提取器能够提取出源语言和目标语言的语言无关特征。

受ADAN模型[63]启发,Antony等[65]提出一个用多种资源丰富语言的单语数据集训练得到语言不变的情感分析器(Language Invariant Sentiment Analyzer,LISA)。LISA使用多语言无监督和监督词向量模型MUSE(Multilingual Unsupervised and Supervised Embeddings)中的无监督方法[66],将其他语种的语义空间对齐到英语的语义空间,进而建立多语言词嵌入。LISA模型由提取特征的多语种序列编码器、鉴别特征语种的语言鉴别器和预测情感的情感分析器构成,通过编码器和鉴别器的对抗训练优化交叉熵损失函数。结果表明,LISA模型不适用于零样本学习,但在有限数据下可实现最优性能。

Feng等[64]借助多个语言多个领域的源语言标注数据和目标语言的大量无标注数据,提出一个端到端的基于自动编码-解码器的跨语言跨领域情感分析(Cross Lingual Cross Domain Sentiment Analysis,CLCDSA)模型。区别于Chen等[63]使用ADAN或者LSTM作为语言特征提取器,CLCDSA模型利用自动编码-解码器作为语言特征提取器,对语言建模(Language Modeling),并从源语言和目标语言大量的无标注数据中提取语言无关特征。CLCDSA模型在英-法、英-德以及英-日德的亚马逊评论数据集分别取得84.6%、88.0%和81.9%的准确率。

Wang等[67]提出一种基于对抗性跨语言多任务学习(Adversarial Cross-Lingual Multi-Task Learning)的个性化微博情绪分类模型。为了解决现有微博情感分类工作在单语数据集下缺少大规模可用的微博用户数据的问题,该模型利用用户在新浪微博、推特等不同平台发表的不同语言的帖子作为数据源,使用对抗学习分别训练语言无关编码器和特定语言编码器,分别提取用户的语言无关特征以及特定语言特征,提高CLSA分析性能。

Kandula等[68]从域对抗神经网络DANN[69]和条件对抗领域迁移CDAN[70]获得启发,提出一种端到端的、基于条件语言对抗网络(Conditional Language Adversarial Network,CLAN)的CLSA模型。情感分类器接受语言模型提取的特征,同时将情感分类器的情感预测结果作为条件,再基于提取的特征进行互协方差运算后,输入语言鉴别器。通过语言模型和鉴别器的条件对抗训练,多次迭代提升提取特征的语言无关性,进而提高预测正确率。Pelicon等[71]使用斯洛文尼亚语数据集训练了基于多语言BERT的新闻情感分类模型。该模型在微调前加入了中间处理步骤,对掩码语言模型和情感分类任务进行联合学习,直接利用情感信息丰富BERT模型,获得了高质量的输入表示。同时,模型分别测试了用新闻开头、开头结尾和全文生成文档表示的方法,以克服BERT模型不能有效处理长文档的缺陷。

基于GAN的跨语言情感分析巧妙地借助生成-对抗思想实现跨语言的情感知识迁移,在英-德、英-法语言对上达到83%以上的准确率,但是不同语种之间的性能差异较大,应用于不同语种时需要重新调参数,导致语言的泛化性支持不够。

5 基于预训练模型的方法

近年来,以ELMo[37]、BERT[72]和GPT-3[73]为代表的预训练模型(Pre-Trained Model,PTM)被相继提出并应用于CLSA领域。相关研究尝试基于PTM构建一个精通各种语言的模型。预训练模型本质上是一种迁移学习(Transfer Learning),包括预训练和微调两个步骤:首先在原任务上预先训练一个初始模型,然后在下游任务(目标任务)中继续对该模型进行精调(Fine-Tune),从而达到提高下游任务性能的目的。预训练阶段使用自监督学习技术,从大规模数据(数亿个参数)中学习到与具体任务无关的初始模型;微调阶段则针对具体的任务进行修正,得到任务相关的最终模型。

预训练模型在CLSA上的优势可以总结为三个方面[74]

(1)利用海量的无标注语料学习到通用的语言表征和更多的先验知识,有助于提升下游CLSA任务的效果。

(2)PTM提供了较好的模型初始化参数,加快模型的训练并提升效果。

(3)预训练可以视为一种正则化的方法,避免了下游任务在小数据上的过拟合风险,具有更好的泛化能力。

2019年以来基于预训练模型的CLSA相关代表性研究如表4所示,包括Multilingual BERT[75]、XLM[76]、XLM-RoBERTa[77]、MetaXL[78]等模型。

表4   基于预训练模型的CLSA研究

Table4  Cross-Lingual Sentiment Analysis Based on Pre-Trained Model

作者模型任务优点缺点数据集
Pires等[75]Multilingual BERT零次跨语言模式迁移在零样本跨语言任务中表现出色,尤其是当源和目标相似时在某些语言对的多语言表示上表现出系统性的缺陷Code-Switching Hindi, English Universal Dependencies Corpus
Lample等[76]XLM预训练模型的跨语言表征利用平行语料引导模型表征对齐,提升预训练模型的跨语言表征性能训练数据规模相对较小,尤其对于资源较少的语言MultiUN, IIT Bombay Corpus, EUbookshop Corpus
Conneau等[77]XLM-RoBERTa跨语言分类、序列标注和问答使用大规模多语言预训练,在跨语言分类、序列标注和问答上表现出色模型有大量的代码合成词,导致系统无法理解句子的内在含义Common Crawl Corpus in 100 Languages, Wikipedia Corpus
Xia等[78]MetaXL跨语言情感分析的多语言传输使目标语言和源语言在表达空间中更接近,具有良好的传输性能尚未探索在预训练模型的多个层上放置多个转换网络亚马逊产品评论数据,SentiPers, Sentiraama
Bataa等[79]ELMo
ULMFiT
BERT
针对日语的情感分类使用知识迁移技术和预训练模型解决日语情感分类没有执行K折交叉验证Japanese Rakuten Review Binary, Five Class Yahoo Datasets
Gupta等[80]BERT
Multi-BERT等
情感分析中的任务型预训练和跨语言迁移针对性强,表现良好,可作为未来情感分析任务的基线模型在特定数据集上的跨语言传输效果不理想,没有显著提高模型的性能Tamil-English, Malayalam English, SentiMix Hinglish

新窗口打开| 下载CSV


多语言BERT(Multilingual BERT,Multi-BERT)由Devlin等[72]提出,是由12层Transformer组成的预训练模型,使用104种语言的单语维基百科页面数据进行训练。Multi-BERT训练时没有使用任何标注数据,也没有使用任何翻译机制来计算语言的表示,所有语言共享一个词汇表和权重,通过掩码语言建模(Masked Language Modeling)进行预训练。Pires等[75]对Multi-BERT进行大量探索性的实验,发现Multi-BERT在零样本跨语言模型任务中表现出色,尤其是在相似语言之间进行跨语言迁移时效果最好。然而,Multi-BERT会在某些语言对的多语言表示上表现出系统性的缺陷(Systematic Deficiencies)。

为提高预训练模型的跨语言表征性能,Lample等[76]基于跨语言模型(Cross-Lingual Language Model)提出了三种预训练任务,分别是因果语言模型(Causal Language Modeling,CLM)、掩模语言模型(Masked Language Modeling,MLM)和翻译语言模型(Translation Language Modeling,TLM)。其中,CLM和MLM是无监督方式,只依赖于单语言数据学习跨语言表示;TLM是有监督方式,不考虑单语种的文本流,而是借助平行语料数据提高跨语言模型的预训练效果。训练时随机遮盖源语言句子和目标语言句子中的一些单词,当预测被遮盖的词时,TLM首先通过该句子的上下文进行推断,若推断失败,TLM还能够借助对应源句子的翻译内容,引导模型将源语言和目标语言的表征对齐。实验结果表明,TLM作为有监督方法,以高出平均准确率4.9%的优势刷新了跨语言自然语言推断任务(Cross-Lingual Natural Language Inference,XNLI)的最优记录。

在XLM基础上,Conneau等[77]提出一种基于Transformer的多语言掩码模型XLM-RoBERTa,证明了使用大规模多语言预训练的模型可以显著提高跨语言迁移任务的性能。相较于XLM,XLM-RoBERTa主要在三个方面进行改进:

(1)增加语种数量和训练数据集的数量,一共使用了100种语言、大小为2.5TB的大规模文本数据集,以自监督的方式训练跨语言表征。

(2)微调过程中使用多种语言的标注数据,提升下游任务的性能。

(3)调整模型的参数,以抵消不利因素:使用跨语言迁移将模型扩展到更多的语言时,可能导致模型理解每种语言的能力受限。

实验表明,XLM-RoBERTa在跨语言分类、序列标注和知识问答三个基准测试中取得了迄今为止最好的结果,在资源缺乏的语种上表现也非常出色。XLM-RoBERTa的缺点是使用该模型可能有大量的代码合成词(Code Mixed Words),导致系统无法理解句子的内在含义[81]

基于预训练模型的CLSA研究属于一种迁移学习,需要大规模的单语语料进行预训练或者一定数量的标注数据进行精调。因此,对于资源匮乏的语言,其迁移学习效果并不理想。此外,语言之间的表示差距(Representation Gap)进一步加剧了资源匮乏语言的迁移学习难度。为解决这一问题,Xia等[78]提出一种基于元学习(Meta-Learning)框架的MetaXL模型来弥合语言之间的表示差距,使得源语言和目标语言在表达空间上更加接近,提高跨语言迁移学习的性能。实验表明,与Multi-BERT和XLM-RoBERTa相比,MetaXL在跨语言情感分析和命名实体识别任务中的性能平均提高2.1%。未来可以通过增加源语言的数量、优化多个语言表示转换网络的位置以提高MetaXL的性能。

预训练模型在CLSA任务上表现优异,相关研究尝试将跨语言预训练模型应用于实践。Bataa等[79]为解决英-日语言对的CLSA性能较低问题,分别验证了ELMo[37]、ULMFiT[82]和BERT[72]预训练模型在英-日语言对的跨语言情感分析效果。结果表明,基于预训练模型的性能相比基于三倍数据集的任务特定模型(如RNN、LSTM、KimCNN、Self-Attention和RCNN)性能更好。在对话系统的多语言识别问题中,Gupta等[80]基于BERT[72]、Multi-BERT[75]、XLM-RoBERTa[77]以及TweetEval[83]等4种预训练模型,分别比较其在两种语言对(泰米尔语-英语和马拉雅拉姆语-英语)中语码转换(Code-Switching)的效果。其中,TweetEval模型的主要思想是:基于RoBERTa预训练模型解决Tweet自媒体数据的7个分类任务,例如情感分析、情绪识别等。结果表明,TweetEval模型在零样本(Zero-Shot)的预训练任务中取得了较好的性能,优于利用BERT、Multi-BERT、XLM-RoBERTa三种模型的跨语种迁移效果。

综上,Multi-BERT、XLM和MetaXL等预训练模型在跨语言情感分析中被广泛应用并取得了较好的性能。然而,仍有一些问题亟待解决。

(1)由于包含的参数数量巨大,预训练模型训练和微调的代价都十分昂贵,对算力的要求也非常高[84],例如OpenAI的GPT-3模型包含1 750亿参数、DeepMind的Gopher模型包含2 800亿参数。海量的模型参数和算力要求使得预训练模型很难应用于线上任务(Online Services)和在资源有限设备(Resource-restricted Devices)上运行[74]。因此,PTM的未来发展应研究解决这一问题,在现有软硬件条件下设计更为有效的模型结构,例如通过优化器或者训练技巧实现更为高效的自监督预训练任务等。

(2)现有基于预训练模型的CLSA取得最好的效果是Multi-BERT在MLDoc[85]数据集的英-德语言对上,准确率达到90.0%;最差的效果是在英-中语言对上,准确率仅为43.88%[86]。不同语言对之间的差异较大,说明预训练模型虽然可以通过大规模的数据学习到语言无关的特征,并在零样本的CLSA任务、尤其是相似语言对之间的CLSA任务上取得了较好的性能,但仍然不能作为一个通用的泛化模型适用于不同的语言对。PTM应用于不同语言对时,需要根据语言的迁移进行微调,其缺点是低效。每个语言对都有各自不同的微调参数。其中一种解决方案是固定PTM的原始参数,针对特定任务添加一个小的可调适配模块[87]

总的来说,2019年至今,PTM在跨语言情感分析中取得了较好的性能,但仍有值得进一步探索的空间。

6 结论与展望

本文对跨语言情感分析的相关研究工作进行梳理总结,系统阐述了跨语言情感分析的研究路线,从早期基于机器翻译及其改进的方法、基于平行语料库的方法以及基于双语情感词典的方法;到2013年后由于Word2Vec、GloVe等词向量模型的提出,跨语言情感分析进入新的研究阶段:一方面,学者研究跨语言词嵌入向量生成模型,研究有监督、半监督以及无监督的跨语言词嵌入生成;另一方面,相关研究利用生成-对抗思想提取多语言文本中与语言无关的特征,或者基于Multi-BERT、MetaXL等预训练模型,从大规模的无标注数据中学习语言的表示,从而开展跨语言情感分析。

通过对现有CLSA研究的主要思路、方法模型、所覆盖语种、数据集以及性能进行总结归纳,从以下角度剖析CLSA研究存在的问题与挑战:

问题一:是否存在一个适用于所有语言的CLSA泛化模型。

CLSA任务的提出,旨在解决大部分非英语语言由于缺乏情感资源而情感分析性能较差的问题,但在全世界7 000多种语言中,50%以上的语言为资源相对匮乏的语言。是否存在一个适用于所有语言的模型一直是CLSA需要回答的问题。

就目前的研究成果来看,不存在一个适用于所有场景的跨语言泛化模型(Cross-Lingual Generalization Model)。针对CLSA的方法有很多,例如基于机器翻译、基于平行语料库、基于跨语言词嵌入的方法等,但尚未找到一个在所有CLSA任务中均表现较好的泛化模型。例如,ADAN模型在英-法数据集上表现良好,但是在英-日数据集上表现较差[63];MUSE模型涉及包含45种语言的110个双语任务,但其在不同语言之间的表现差异较大[66]。产生这一现象的原因是不同语言之间的差异性,现有大部分研究将英语作为唯一源语言,因此针对不同的目标语言,很难基于一个统一的模型同时平衡英语和多种语言之间的差异。

一些研究意识到此问题,通过增加源语言的语种来减少源与目标语言之间的差距。此外,Pfeiffer等[88]提出MAD-X模型,利用现有跨语言或多语言情感分析模型,通过调节器(Adapter)调节模型的参数和设置,使其能够有针对性地适用于特定的目标语言。基于MAD-X改进后,F1值有不同程度的提升,其中最高提高了6%。Pfeiffer等[88]还指出,属于同一语言家族的语言之间差异最小,同一语言家族的两种语言间进行CLSA能够最大程度提高MAD-X的性能。例如缅甸语和闽东语均属于汉藏语系,使用缅甸语作为源语言能够使得针对闽东语的跨语言情感分析准确率提升最大,反之亦然。

问题2:针对不同的目标语言,能否界定CLSA性能较好的源语言范围。

该问题一直是CLSA研究的一大难点。现有大部分研究选择英语作为源语言,原因主要有两点:一是英语的情感资源和标注语料较为丰富;二是基于英语的单语情感分析相关研究更多,具有较多的模型选择。然而,固定源语言会带来语言差距不一致的问题,从而影响CLSA的性能。近年来,部分研究扩大源语言的选择范围,将日语、德语、西班牙语等多种语言作为源语言[27]。Rasooli等[58]在此基础上提出一个新的假设:“是否使用同一家族的语言作为源语言,能够提高CLSA的准确性?”;对斯洛文尼亚语和克罗地亚语的实验结果印证了这一假设(两者均属于印欧语系斯拉夫语族南部语支)。

由于可选模型和语料库数量的限制,仅通过较少人工处理或机器预处理即能够用作源语言的语言数目相对较少。特别地,对于一些亚洲语言、非洲语言或欧洲语言,如印地语、斯洛伐克语、乌尔都语,很难获取足够数量的训练数据进行实验[38,89-90]。在未来的工作中,能否提供包含更多语种的可用数据集,或许成为CLSA泛化模型研究的一大掣肘。如果可用数据集进一步丰富,则对于给定目标语言,如何选择源语言或许有望成为CLSA的热门研究之一。

问题3:从早期基于机器翻译的方法,到近年来基于预训练模型的方法,如何横向对比不同的CLSA方法。

本文总结了CLSA的主要研究方法,这些方法各有其优缺点。一方面,基于Multi-BERT等预训练模型的方法成为近年来CLSA研究的主流方法,相关研究在更多语言种类、更大数据集上进行了测试[75-77],将目标语言研究对象推广至中文、印地语、马来西亚语等资源更加稀缺或同英语距离更远的语种,验证其方法的性能;未来一段时间,基于预训练模型的CLSA方法及其改进是主流的研究方向。但是也需要看到,基于预训练模型的方法对算力要求较高;处理不同语言对的CLSA任务时仍需进一步微调,应用于不同语言对时,性能差别较大。这些问题制约了基于预训练模型的CLSA研究的大规模推广应用。

另一方面,虽然早期一些经典的CLSA方法从提出至今已有十几年的历史,但对于CLSA的未来发展仍具有借鉴意义。例如,基于机器翻译及其改进的方法于2004年被提出,由于早期的机器翻译质量不高,容易受到机器翻译质量的影响;随着机器翻译系统的性能提高,该方法的性能也得到一定提升。基于预训练模型的CLSA对语言的数据量有一定要求,因此,基于机器翻译及其改进的方法仍具有应用价值:可作为一些数据资源匮乏小语种的首选方法、或者作为一种伪数据集的补充方法提升其他CLSA方法的性能等。再如,基于结构对应学习的方法目前应用较少,然而,其基于源语言和目标语言轴心词对的选择思想,与无监督的跨语言词向量模型中初始解的选择思想具有相似之处。因此,以预训练模型为主、多种方法同时发展的CLSA研究发展,才能够满足不同语言场景下跨语言情感分析的需求。也应看到,这些CLSA模型需要解决的共性问题是源语言的选择较为单一、不同语言对的CLSA性能差别较大等问题。

跨语言情感分析的最终目的是利用源语言帮助目标语言实现情感分析。由于情感资源稀缺的语言的存在,使得跨语言情感分析的研究具有非常重要的意义。但是,如果跨语言情感分析所需耗费的知识迁移代价太大、甚至远超在单语下的情感分析所需要的人力物力,则违背了跨语言情感分析研究的初衷。同时,这也是检测未来跨语言情感分析模型能否在大规模语言上推广应用的重要指标之一。

作者贡献声明

徐月梅:提出研究分析思路,设计方案,撰写论文;

曹晗,王文清,杜宛泽:文献分析,撰写论文;

徐承炀:论文修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

[1] 徐月梅. 跨语言情感分析论文. https://github.com/xuyuemei/CLSA_survey.

参考文献

Shanahan J G, Grefenstette G, Qu Y, Evans D A.

Mining Multilingual Options Through Classification and Translation

[C]// Proceeding of AAAI Spring Symposium. Menlo Park, CA: AAAI, 2004

[本文引用: 3]

Wan X J.

Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis

[C]// Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2008: 553-561.

[本文引用: 1]

Vulić I, Moens M F.

Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings

[C]// Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. USA: ACM, 2015: 363-372.

[本文引用: 1]

Mikolov T, Chen K, Corrado G, et al.

Efficient Estimation of Word Representations in Vector Space[OL]

arXiv Preprint, arXiv: 1301.3781.

[本文引用: 2]

Balahur A, Mihalcea R, Montoyo A.

Computational Approaches to Subjectivity and Sentiment Analysis: Present and Envisaged Methods and Applications

[J]. Computer Speech & Language, 2014, 28(1): 1-6.

[本文引用: 1]

Banea C, Mihalcea R, Wiebe J, et al.

Multilingual Subjectivity Analysis Using Machine Translation

[C]// Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2008: 127-135.

[本文引用: 1]

Martín-Valdivia M T, Martínez-Cámara E, Perea-Ortega J M, et al.

Sentiment Polarity Detection in Spanish Reviews Combining Supervised and Unsupervised Approaches

[J]. Expert Systems with Applications, 2013, 40(10): 3934-3942.

DOI:10.1016/j.eswa.2012.12.084      URL     [本文引用: 2]

Prettenhofer P, Stein B.

Cross-Language Text Classification Using Structural Correspondence Learning

[C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010: 1118-1127.

[本文引用: 2]

Wan X J.

Co-Training for Cross-Lingual Sentiment Classification

[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. USA: Association for Computational Linguistics, 2009: 235-243.

[本文引用: 2]

Balahur A, Turchi M.

Comparative Experiments Using Supervised Learning and Machine Translation for Multilingual Sentiment Analysis

[J]. Computer Speech & Language, 2014, 28(1): 56-75.

[本文引用: 1]

Banea C, Mihalcea R, Wiebe J.

Multilingual Subjectivity: Are More Languages Better?

[C]// Proceedings of the 23rd International Conference on Computational Linguistics. 2010: 28-36.

[本文引用: 1]

Hajmohammadi M S, Ibrahim R, Selamat A.

Density Based Active Self-Training for Cross-Lingual Sentiment Classification

[C]// Proceedings of the 2013 International Conference on Computer Science and Applications. 2014: 1053-1059.

[本文引用: 1]

Hajmohammadi M S, Ibrahim R, Selamat A.

Bi-View Semi-Supervised Active Learning for Cross-Lingual Sentiment Classification

[J]. Information Processing & Management, 2014, 50(5): 718-732.

DOI:10.1016/j.ipm.2014.03.005      URL     [本文引用: 1]

Pan J F, Xue G R, Yu Y, et al.

Cross-Lingual Sentiment Classification via Bi-View Non-Negative Matrix Tri-Factorization

[C]// Proceedings of the 15th Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2011: 289-300.

[本文引用: 1]

Wan X J.

Bilingual Co-Training for Sentiment Classification of Chinese Product Reviews

[J]. Computational Linguistics, 2011, 37(3): 587-616.

DOI:10.1162/COLI_a_00061      URL     [本文引用: 2]

He Y L.

Latent Sentiment Model for Weakly-Supervised Cross-Lingual Sentiment Classification

[C]// Proceedings of the 2011 European Conference on Information Retrieval Lecture Notes in Computer Science. 2011: 214-225.

[本文引用: 2]

Zhang P, Wang S G, Li D Y.

Cross-Lingual Sentiment Classification: Similarity Discovery Plus Training Data Adjustment

[J]. Knowledge-Based Systems, 2016, 107: 129-141.

DOI:10.1016/j.knosys.2016.06.004      URL     [本文引用: 2]

Al-Shabi A, Adel A, Omar N, et al.

Cross-Lingual Sentiment Classification from English to Arabic Using Machine Translation

[J]. International Journal of Advanced Computer Science and Applications, 2017, 8(12): 434-440.

[本文引用: 2]

Hajmohammadi M S, Ibrahim R, Selamat A.

Cross-Lingual Sentiment Classification Using Multiple Source Languages in Multi-View Semi-Supervised Learning

[J]. Engineering Applications of Artificial Intelligence, 2014, 36: 195-203.

DOI:10.1016/j.engappai.2014.07.020      URL     [本文引用: 3]

Hajmohammadi M S, Ibrahim R, Selamat A, et al.

Combination of Active Learning and Self-Training for Cross-Lingual Sentiment Classification with Density Analysis of Unlabelled Samples

[J]. Information Sciences, 2015, 317: 67-77.

DOI:10.1016/j.ins.2015.04.003      URL     [本文引用: 3]

Hajmohammadi M S, Ibrahim R, Selamat A.

Graph-Based Semi-Supervised Learning for Cross-Lingual Sentiment Classification

[C]// Proceedings of the 2015 Asian Conference on Intelligent Information and Database Systems. 2015: 97-106.

[本文引用: 2]

Lu B, Tan C, Cardie C, et al.

Joint Bilingual Sentiment Classification with Unlabeled Parallel Corpora

[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. 2011: 320-330.

[本文引用: 3]

Meng X, Wei F, Liu X, et al.

Cross-Lingual Mixture Model for Sentiment Classification

[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. 2012: 572-581.

[本文引用: 2]

Gao D, Wei F R, Li W J, et al.

Cross-Lingual Sentiment Lexicon Learning with Bilingual Word Graph Label Propagation

[J]. Computational Linguistics, 2015, 41: 21-40.

DOI:10.1162/COLI_a_00207      URL     [本文引用: 4]

Zhou G, He T, Zhao J, Wu W.

A Subspace Learning Framework For Cross-Lingual Sentiment Classification With Partial Parallel Data

[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence (IJCAI). Palo Alto, California USA: AAAI Press / International Joint Conferences on Artificial Intelligence, 2015: 1426-1432.

[本文引用: 3]

高影繁, 王惠临, 徐红姣.

跨语言文本分类技术研究进展

[J]. 情报理论与实践, 2010, 33(11): 126-128.

[本文引用: 1]

( Gao Yingfan, Wang Huilin, Xu Hongjiao.

Progress in Research on Cross-Language Text Categorization Technology

[J]. Information Studies: Theory & Application, 2010, 33(11): 126-128.)

[本文引用: 1]

Duh K, Fujino A, Nagata M.

Is Machine Translation Ripe for Cross-Lingual Sentiment Classification?

[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. 2011: 429-433.

[本文引用: 2]

Mihalcea R, Banea C, Wiebe J.

Learning Multilingual Subjective Language via Cross-Lingual Projections

[C]// Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. 2007: 976-983.

[本文引用: 1]

Darwich M, Noah S A M, Omar N.

Automatically Generating a Sentiment Lexicon for the Malay Language

[J]. Asia-Pacific Journal of Information Technology and Multimedia, 2016, 5(1): 49-59.

DOI:10.17576/apjitm-2016-0501-05      URL     [本文引用: 1]

Nasharuddin N A, Abdullah M T, Azman A, et al.

English and Malay Cross-Lingual Sentiment Lexicon Acquisition and Analysis

[C]// Proceedings of the 2017 International Conference on Information Science and Applications. 2017: 467-475.

[本文引用: 1]

Sazzed S.

Development of Sentiment Lexicon in Bengali Utilizing Corpus and Cross-Lingual Resources

[C]// Proceedings of the 21st International Conference on Information Reuse and Integration for Data Science. IEEE, 2020: 237-244.

[本文引用: 1]

Vania C M, Ibrahim A M.

Sentiment Lexicon Generation for an Under-Resourced Language

[J]. International Journal of Computational Linguistics and Applications, 2014, 5(1): 59-72.

[本文引用: 1]

Chang C H, Wu M L, Hwang S Y.

An Approach to Cross-Lingual Sentiment Lexicon Construction

[C]// Proceedings of the 2019 IEEE International Congress on Big Data. IEEE, 2019: 129-131.

[本文引用: 1]

He X X, Gao S X, Yu Z T, et al.

Sentiment Classification Method for Chinese and Vietnamese Bilingual News Sentence Based on Convolution Neural Network

[C]// Proceedings of the 2018 International Conference on Mechatronics and Intelligent Robotics. 2018: 1230-1239.

[本文引用: 1]

Zabha N I, Ayop Z, Anawar S, et al.

Developing Cross-Lingual Sentiment Analysis of Malay Twitter Data Using Lexicon-Based Approach

[J]. International Journal of Advanced Computer Science and Applications, 2019, 10(1): 346-351.

[本文引用: 1]

Pennington J, Socher R, Manning C D.

GloVe: Global Vectors for Word Representation

[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014: 1532-1543.

[本文引用: 1]

Peters M, Neumann M, Iyyer M, et al.

Deep Contextualized Word Representations

[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. 2018: 2227-2237.

[本文引用: 3]

Artetxe M, Labaka G, Agirre E.

Learning Bilingual Word Embeddings with (Almost) No Bilingual Data

[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2017: 451-462.

[本文引用: 7]

Faruqui M, Dyer C.

Improving Vector Space Word Representations Using Multilingual Correlation

[C]// Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2014: 462-471.

[本文引用: 1]

Zou W Y, Socher R, Cer D, et al.

Bilingual Word Embeddings for Phrase-Based Machine Translation

[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2013: 1393-1398.

[本文引用: 1]

Vulić I, Moens M F.

Bilingual Word Embeddings from Non-Parallel Document-Aligned Data Applied to Bilingual Lexicon Induction

[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. USA: Association for Computational Linguistics, 2015: 719-725.

[本文引用: 1]

Ruder S, Vulić I, Søgaard A.

A Survey of Cross-Lingual Word Embedding Models

[J]. Journal of Artificial Intelligence Research, 2019, 65: 569-631.

DOI:10.1613/jair.1.11640      [本文引用: 1]

Cross-lingual representations of words enable us to reason about word meaning in multilingual contexts and are a key facilitator of cross-lingual transfer when developing natural language processing models for low-resource languages. In this survey, we provide a comprehensive typology of cross-lingual word embedding models. We compare their data requirements and objective functions. The recurring theme of the survey is that many of the models presented in the literature optimize for the same objectives, and that seemingly different models are often equivalent, modulo optimization strategies, hyper-parameters, and such. We also discuss the different ways cross-lingual word embeddings are evaluated, as well as future challenges and research horizons.

Vulić I, Korhonen A.

On the Role of Seed Lexicons in Learning Bilingual Word Embeddings

[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2016: 247-257.

[本文引用: 1]

Barone A V M.

Towards Cross-Lingual Distributed Representations Without Parallel Text Trained with Adversarial Autoencoders

[C]// Proceedings of the 1st Workshop on Representation Learning for NLP. USA: Association for Computational Linguistics, 2016: 121-126.

[本文引用: 4]

彭晓娅, 周栋.

跨语言词向量研究综述

[J]. 中文信息学报, 2020, 34(2): 1-15.

[本文引用: 1]

( Peng Xiaoya, Zhou Dong.

Survey of Cross-Lingual Word Embedding

[J]. Journal of Chinese Information Processing, 2020, 34(2): 1-15.)

[本文引用: 1]

Chen Q, Li C L, Li W J.

Modeling Language Discrepancy for Cross-Lingual Sentiment Analysis

[C]// Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. USA: ACM, 2017: 117-126.

[本文引用: 3]

Abdalla M, Hirst G.

Cross-Lingual Sentiment Analysis Without (Good) Translation

[C]// Proceedings of the 8th International Joint Conference on Natural Language Processing. Sweden: Association for Computational Linguistics, 2017: 462-471.

[本文引用: 4]

Dong X,de Melo G.

Cross-Lingual Propagation for Deep Sentiment Analysis

[C]// Proceedings of the 32nd Conference on Artificial Intelligence. 2018: 5771-5778.

[本文引用: 3]

Akhtar M S, Sawant P, Sen S, et al.

Improving Word Embedding Coverage in Less-Resourced Languages Through Multi-Linguality and Cross-Linguality

[J]. ACM Transactions on Asian and Low-Resource Language Information Processing, 2019, 18(2): 1-22.

[本文引用: 3]

Atrio À R, Badia T, Barnes J. On the Effect of Word Order on Cross-Lingual Sentiment Analysis[OL]. arXiv Preprint, arXiv: 1906.05889.

[本文引用: 3]

Peirsman Y, Padó S.

Cross-Lingual Induction of Selectional Preferences with Bilingual Vector Spaces

[C]// Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics. 2010: 921-929.

[本文引用: 3]

Vulić I, Moens M F.

A Study on Bootstrapping Bilingual Vector Spaces from Non-Parallel Data (and Nothing Else)

[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2013: 1613-1624.

[本文引用: 3]

Chen Z P, Shen S, Hu Z N, et al.

Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification

[C]// Proceedings of the 2019 World Wide Web Conference. New York: ACM Press, 2019: 251-262.

[本文引用: 3]

Barnes J, Klinger R, im Walde S S.

Bilingual Sentiment Embeddings: Joint Projection of Sentiment across Languages

[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2018: 2483-2493.

[本文引用: 3]

Gouws S, Bengio Y, Corrado G.

BilBOWA: Fast Bilingual Distributed Representations Without Word Alignments

[C]// Proceedings of the 2015 International Conference on Machine Learning. PMLR, 2015: 748-756.

[本文引用: 5]

Shen J H, Liao X D, Lei S.

Cross-Lingual Sentiment Analysis via AAE and BiGRU

[C]// Proceedings of the 2020 Asia-Pacific Conference on Image Processing, Electronics and Computers. IEEE, 2020: 237-241.

[本文引用: 4]

Artetxe M, Labaka G, Agirre E.

A Robust Self-Learning Method for Fully Unsupervised Cross-Lingual Mappings of Word Embeddings

[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2018: 789-798.

[本文引用: 3]

Rasooli M S, Farra N, Radeva A, et al.

Cross-Lingual Sentiment Transfer with Limited Resources

[J]. Machine Translation, 2018, 32(1-2): 143-165.

DOI:10.1007/s10590-017-9202-6      URL     [本文引用: 4]

Hermann K M, Blunsom P. Multilingual Distributed Representations Without Word Alignment[OL]. arXiv Preprint, arXiv: 1312.6173. Multilingual Distributed Representations Without Word Alignment[OL]. arXiv Preprint, arXiv: 1312.6173.

[本文引用: 1]

Chandar A P S, Lauly S, Larochelle H, et al.

An Autoencoder Approach to Learning Bilingual Word Representations

[C]// Proceedings of the 2014 Conference and Workshop on Neural Information Processing Systems. 2014.

[本文引用: 2]

Gouws S, Søgaard A.

Simple Task-Specific Bilingual Word Embeddings

[C]// Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. USA: Association for Computational Linguistics, 2015: 1386-1390.

[本文引用: 1]

Goodfellow I, Pouget-Abadie J, Mirza M, et al.

Generative Adversarial Networks

[J]. Communications of the ACM, 2020, 63(11): 139-144.

DOI:10.1145/3422622      URL     [本文引用: 1]

Chen X L, Sun Y, Athiwaratkun B, et al.

Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification

[J]. Transactions of the Association for Computational Linguistics, 2018, 6: 557-570.

DOI:10.1162/tacl_a_00039      URL     [本文引用: 5]

Feng Y L, Wan X J.

Towards a Unified End-to-End Approach for Fully Unsupervised Cross-Lingual Sentiment Analysis

[C]// Proceedings of the 23rd Conference on Computational Natural Language Learning. USA: Association for Computational Linguistics, 2019: 1035-1044.

[本文引用: 2]

Antony A, Bhattacharya A, Goud J, et al.

Leveraging Multilingual Resources for Language Invariant Sentiment Analysis

[C]// Proceedings of the 22nd Annual Conference of the European Association for Machine Translation. 2020: 71-79.

[本文引用: 1]

Conneau A, Lample G, Ranzato M A, et al.

Word Translation Without Parallel Data

[OL]. arXiv Preprint, arXiv: 1710.04087.

[本文引用: 2]

Wang W C, Feng S, Gao W, et al.

Personalized Microblog Sentiment Classification via Adversarial Cross-Lingual Multi-Task Learning

[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2018: 338-348.

[本文引用: 1]

Kandula H, Min B N.

Improving Cross-Lingual Sentiment Analysis via Conditional Language Adversarial Nets

[C]// Proceedings of the 3rd Workshop on Computational Typology and Multilingual NLP. USA: Association for Computational Linguistics, 2021: 32-37.

[本文引用: 1]

Ganin Y, Ustinova E, Ajakan H, et al.

Domain-Adversarial Training of Neural

[J]. The Journal of Machine Learning Research, 2016, 17(1): 2096-2030.

[本文引用: 1]

Long M, Cao Z, Wang J, et al.

Conditional Adversarial Domain Adaptation

[C]// Proceedings of the 2018 Conference on Neural Information Processing Systems. 2018.

[本文引用: 1]

Pelicon A, Pranjić M, Miljković D, et al.

Zero-Shot Learning for Cross-Lingual News Sentiment Classification

[J]. Applied Sciences, 2020, 10(17): 5993.

DOI:10.3390/app10175993      URL     [本文引用: 1]

Devlin J, Chang M W, Lee K, et al.

BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

[OL]. arXiv Preprint, arXiv: 1810.04805.

[本文引用: 4]

Brown T, Mann B, Ryder N, et al.

Language Models are Few-Shot Learners

[C]// Proceedings of the 2020 Conference on Neural Information Processing Systems. 2020, 33: 1877-1901.

[本文引用: 1]

Qiu X P, Sun T X, Xu Y G, et al.

Pre-Trained Models for Natural Language Processing: A Survey

[J]. Science China Technological Sciences, 2020, 63(10): 1872-1897.

DOI:10.1007/s11431-020-1647-3      URL     [本文引用: 2]

Pires T, Schlinger E, Garrette D.

How Multilingual is Multilingual BERT?

[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2019: 4996-5001.

[本文引用: 5]

Lample G, Conneau A. Cross-Lingual Language Model Pretraining[OL]. arXiv Preprint, arXiv: 1901.07291.

[本文引用: 4]

Conneau A, Khandelwal K, Goyal N, et al. Unsupervised Cross-Lingual Representation Learning at Scale[OL]. arXiv Preprint, arXiv: 1911.02116.

[本文引用: 5]

Xia M, Zheng G, Mukherjee S, et al.

MetaXL: Meta Representation Transformation for Low-Resource Cross-Lingual Learning

[OL]. arXiv Preprint, arXiv: 2104.07908.

[本文引用: 3]

Bataa E, Wu J.

An Investigation of Transfer Learning-Based Sentiment Analysis in Japanese

[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2019: 4652-4657.

[本文引用: 2]

Gupta A, Rallabandi S K, Black A W.

Task-Specific Pre-Training and Cross Lingual Transfer for Sentiment Analysis in Dravidian Code-Switched Languages

[C]// Proceedings of the 1st Workshop on Speech and Language Technologies for Dravidian Languages. 2021: 73-79.

[本文引用: 2]

Hossain E, Sharif O, Hoque M M.

NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection Using Cross-Lingual Representation Learner

[C]// Proceedings of the 1st Workshop on Language Technology for Equality, Diversity and Inclusion. 2021: 168-174.

[本文引用: 1]

Howard J, Ruder S.

Universal Language Model Fine-Tuning for Text Classification

[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics, 2018: 328-339.

[本文引用: 1]

Barbieri F, Camacho-Collados J, Espinosa Anke L, et al.

TweetEval: Unified Benchmark and Comparative Evaluation for Tweet Classification

[OL]. arXiv Preprint, arXiv: 2010.12421.

[本文引用: 1]

Pikuliak M, Šimko M, Bieliková M.

Cross-Lingual Learning for Text Processing: A Survey

[J]. Expert Systems with Applications, 2021, 165: 113765.

DOI:10.1016/j.eswa.2020.113765      URL     [本文引用: 1]

Schwenk H, Li X. A Corpus for Multilingual Document Classification in Eight Languages[OL]. arXiv Preprint, arXiv: 1805.09821.

[本文引用: 1]

Dong X, de Melo G.

A Robust Self-Learning Framework for Cross-Lingual Text Classification

[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. USA: Association for Computational Linguistics, 2019: 6306-6310.

[本文引用: 1]

Houlsby N, Giurgiu A, Jastrzebski S, et al.

Parameter-Efficient Transfer Learning for NLP

[C]// Proceedings of the 2019 International Conference on Machine Learning. PMLR, 2019: 2790-2799.

[本文引用: 1]

Pfeiffer J, Vulić I, Gurevych I, et al.

MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer

[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2020: 7654-7673.

[本文引用: 2]

Lachraf R, Nagoudi E M B, Ayachi Y, et al.

ArbEngVec: Arabic-English Cross-Lingual Word Embedding Model

[C]// Proceedings of the 4th Arabic Natural Language Processing Workshop. USA: Association for Computational Linguistics, 2019: 40-48.

[本文引用: 1]

Khalid U, Beg M O, Arshad M U.

RUBERT: A Bilingual Roman Urdu BERT Using Cross Lingual Transfer Learning

[OL]. arXiv Preprint, arXiv: 2102.11278.

[本文引用: 1]

/