Data Analysis and Knowledge Discovery  2023, Vol. 7 Issue (1): 1-21    DOI: 10.11925/infotech.2096-3467.2022.0472
Cross-Lingual Sentiment Analysis: A Survey
Xu Yuemei(),Cao Han,Wang Wenqing,Du Wanze,Xu Chengyang
School of Information Science and Technology, Beijing Foreign Studies of University, Beijing 100089, China
[Objective] This paper teases out the research context of cross-lingual sentiment analysis (CLSA). [Coverage] We searched “TS=cross lingual sentiment OR cross lingual word embedding” in Web of Science database and 90 representative papers were chosen for this review. [Methods] We elaborated the following CLSA methods in detail: (1) The early main methods of CLSA, including those based on machine translation and its improved variants, parallel corpora or bilingual sentiment lexicon; (2) CLSA based on cross-lingual word embedding; (3) CLSA based on Multi-BERT and other pre-trained models. [Results] We analyzed their main ideas, methodologies, shortcomings, etc., and attempted to reach a conclusion on the coverage of languages, datasets and their performance. It is found that although pre-trained models such as Multi-BERT have achieved good performance in zero-shot cross-lingual sentiment analysis, some challenges like language sensitivity still exist. Early CLSA methods still have some inspirations for existing researches. [Limitations] Some CLSA models are mixed models and they are classified according to the main methods. [Conclusions] We look into the future development of CLSA and the challenges facing the research area. With in-depth research of pre-trained models on multi-lingual semantics, CLSA models fit for more and wider languages will be the future direction.

Key wordsCross Lingual      Multi-lingual      Sentiment Analysis      Bilingual Word Embedding     
Received: 11 May 2022      Published: 16 February 2023
ZTFLH:  TP391  
Fund:Fundamental Research Funds for the Central Universities(2022JJ006)
Corresponding Authors: Xu Yuemei,ORCID:0000-0002-0223-7146   

Xu Yuemei, Cao Han, Wang Wenqing, Du Wanze, Xu Chengyang. Cross-Lingual Sentiment Analysis: A Survey. Data Analysis and Knowledge Discovery, 2023, 7(1): 1-21.

Cross-Lingual Sentiment Analysis Based on Machine Translation
作者 模型 特点 数据来源 语种 准确率/%
He*[16] LSM 借助对源语言情感词典的翻译,得到目标语言的情感词先验知识,纳入到LDA模型进行学习 中国商品评论数据 英-中 81.41
Zhang等*[17] ATTM 基于训练集选择,将与目标语言高度相似的标记样本放入训练集中,构建一个以目标语言为中心的跨语言情感分类器 测试集: COAE2014;
中-德 84.3
中-英 87.7
中-法 80.1
中-西 83.3
Al-Shabi等*[18] SVM、NB、KNN 设置标准数据集对机器翻译优化,以此找到最优的基线模型,并确定了机器翻译数据中的噪声与情感分类精度之间的关系 亚马逊产品评论 英-阿
Hajmohammadi等*[19] MLMV 将多种源语言的标记数据作为训练集,克服从单一源语言到目标语言的机器翻译过程导致的泛化问题 亚马逊产品评论;
Pan Reviews数据集
英+德-法 79.85
英+法-德 81.55
英+法-日 73.73
英+日-中 76.65
Hajmohammadi等*[20] DBAST 将目标语言无标记文档通过机器翻译转化为源语言文档后,从中选择信息量最大、最可信的样本进行标记以丰富训练数据 亚马逊产品评论;
Pan Reviews数据集
英-法 78.63
英-中 71.36
英-日 70.04
Hajmohammadi等*[21] Graph-Based
Learning Model
提出一种基于多视图的半监督学习模型,将目标语言中未标记的数据合并到多视图半监督学习模型中,即在文档级分析中加入目标语言内在结构的学习 亚马逊产品评论;
Pan Reviews数据集
英-中 73.81
英-日 72.72
Lu等&[22] Joint 联合双语有情感标注的平行语料库和未标记平行数据,为每种语言同时学习更好的单语情感分类器 MPQA; NTCIR-EN;
英-中 83.54
中-英 79.29
Meng等&[23] CLMM 不依赖机器翻译标记目标语言文本,从未标记的平行语料库中通过拟合参数学习情感词,扩大词汇覆盖率 MPQA; NTCIR-EN;
英-中 83.02
Gao等&[24] BLP 基于平行语料库和词对齐构建双语词图,从现有源语言(英语)情感词典中学习到目标语言的情感词典 General Inquirer Lexicon;ISI中-英平行语料库;NTCIR情感语料库 英-中 78.90
Zhou等&[25] NMF 提出一个子空间学习框架,利用少量文档对齐的并行数据和双语下非并行数据,缩小源语言和目标语言的差距 亚马逊产品评论 英-法 81.83
英-德 80.45
英-日 75.78
法-英 79.47
德-英 79.56
日-英 78.79
Representative Researches on Early Cross-Lingual Sentiment Analysis
Structure of CLSA Based on Parallel Corpora
Schematic of CLWE in English and Spanish
方法 主要思路 优点 / 缺点
有监督的方法 借助大量的双语平行文本 优点:将平行文本蕴含的嵌入空间(Embedding Space)信息作为参考,有效保证映射的效果;
半监督的方法 基于小样本的启发式双语种子词典作为映射锚点,学习转移矩阵 优点:只需要用到小样本的种子词典,较易获得;
完全无监督的方法 借助大规模的非平行语料资源,通过生成对抗网络、自动编码器-解码器等模型学习双语之间的转换矩阵 优点:无需借助平行语料库/双语词典;
Classification and Summarization of Cross-Lingual Word Embedding Generation
Structure of Cross-Lingual Word Embedding Based on Unsupervised Approach
作者 模型 特点 数据来源 语种 准确率/%
Chen等[46] RBST 将语言差异建模为源语言和目标语言在每个特定极性下的固定转移向量,基于此向量确定目标语言文档情感 亚马逊产品评论数据;
英-中 81.5
Abdalla等[47] SVM;
借助由机器翻译获得的单词对来计算从源语言到目标语言向量空间的转换矩阵 谷歌新闻数据集;西班牙十亿单词语料库;维基百科数据;谷歌万亿单词语料库;中文酒店评论数据集 英-中 F: 77.0
英-西 F: 81.0
Dong等[48] DC-CNN 基于标注的双语平行语料库,将潜在的情感信息编码到跨语言词向量中 SST影评;TA旅游网站评论;AC法国电视剧评论;SE16-T5餐馆评论;AFF亚马逊美食评论 英-西 85.93
英-荷 79.30
英-俄 93.26
英-德 92.31
英-捷 93.69
英-意 96.48
英-法 92.97
英-日 88.08
Akhtar等[49] Bilingual-SGNS 结合负采样的双语连续跳跃元语法模型构建两种语言的词嵌入向量表示并映射至同一空间,用于细粒度方面级情感分析 印地语ABSA数据集;英语SemEval-2014数据集 英-印 多语言设置:76.29
Atrio等[50] SVM; SNN; BiLSTM 对目标语言进行词序调整以提高短文本情感分析的性能 OpeNER语料库;
英-西 Bi: F=65.1
4-C: F=35.8
英-加 Bi: F=65.6
4-C: F=38.1
Peirsman等[51] Cross-Lingual Selectional Preferences Model 使用双语同根词构成的小样本种子词典作为初始解构造双语词向量空间,生成双语词向量 TiGer语料库;AMT 西-英 47.0
德-英 48.0
Vuli?等[52] MuPTM 利用多语言概率模型对单词间一对多的映射关系生成一一映射的种子词典,以此作为初始解生成跨语言词向量 维基百科文章 西-英 89.1
意-英 88.2
Artetxe等[38] Self-Learning Framework 基于两种语言单语词向量间的相似度构造种子词典 英-意数据集;
ukWaC+Wikipedi+BNC;itWaC;Europarl;OPUS;SdeWaC;28亿词Common Crawl语料库;RG-65 & WordSim-353跨语言数据集
英-意 37.27
英-德 39.60
英-芬 28.16
Chen等[53] Ermes 将emoji表情符号作为补充情感监督信息,获得源-目标语言融合情感信息的句子表征 亚马逊产品评论数据;推特数据 英-日 80.17
英-法 86.5
英-德 86.6
Barnes等[54] BLSE 借助一个小的双语词典和源语言带标注的情感数据,得到双语映射到同一个共享向量空间、同时携带情感信息的变换矩阵 OpeNER;MultiBooked数据集 英-西 Bi:F=80.3
英-加 Bi:F=85.0
英-巴 Bi:F=73.5
Gouws等[55] BiBOWA 利用粗糙的双语数据,基于优化过的词语相似度矩阵计算方法无监督地生成跨语言词向量 路透社RCV1/RCV2多语语料库;EuroParl 英-德 86.5
德-英 75.0
Barone等[44] AAE 首次使用对抗性自动编码器将源语言词向量映射到目标语言词向量空间中 维基百科语料库;路透社语料库;2015 News Commentary语料库 英-意
Shen等[56] TL-AAE-
利用对抗自动编码器学习双语平行文本,通过线性变换矩阵将双语映射到同一向量空间 亚马逊产品评论数据 英-中 F: 78.57
Artetxe等[57] Vecmap 利用无监督模型Vecmap构造初始解,去除对小规模种子词典的依赖 英-意数据集;EuroParl;OPUS; 英-意 48.13
英-德 48.19
英-芬 32.63
英-西 37.33
Rasooli等[58] NBLR+
使用多种源语言缩小源-目标语言间的差异,并采用标注投影和直接迁移两种迁移方法为资源稀缺的语言构造健壮的情感分析系统 推特数据;SentiPer;SemEval 2017 Task 4;BQ;EuroParl;LDC;GIZA++;维基百科文章 单源设置
英-中 F: 66.8
英-德 F: 51.0
英-瑞典 F: 49.0
F: 54.7
波兰 F: 54.6
F: 54.0
Cross-Lingual Sentiment Analysis Based on CLWE
Structure of Cross-Lingual Sentiment Analysis Based on GAN
作者 模型 任务 优点 缺点 数据集
Pires等[75] Multilingual BERT 零次跨语言模式迁移 在零样本跨语言任务中表现出色,尤其是当源和目标相似时 在某些语言对的多语言表示上表现出系统性的缺陷 Code-Switching Hindi, English Universal Dependencies Corpus
Lample等[76] XLM 预训练模型的跨语言表征 利用平行语料引导模型表征对齐,提升预训练模型的跨语言表征性能 训练数据规模相对较小,尤其对于资源较少的语言 MultiUN, IIT Bombay Corpus, EUbookshop Corpus
Conneau等[77] XLM-RoBERTa 跨语言分类、序列标注和问答 使用大规模多语言预训练,在跨语言分类、序列标注和问答上表现出色 模型有大量的代码合成词,导致系统无法理解句子的内在含义 Common Crawl Corpus in 100 Languages, Wikipedia Corpus
Xia等[78] MetaXL 跨语言情感分析的多语言传输 使目标语言和源语言在表达空间中更接近,具有良好的传输性能 尚未探索在预训练模型的多个层上放置多个转换网络 亚马逊产品评论数据,SentiPers, Sentiraama
Bataa等[79] ELMo
针对日语的情感分类 使用知识迁移技术和预训练模型解决日语情感分类 没有执行K折交叉验证 Japanese Rakuten Review Binary, Five Class Yahoo Datasets
Gupta等[80] BERT
情感分析中的任务型预训练和跨语言迁移 针对性强,表现良好,可作为未来情感分析任务的基线模型 在特定数据集上的跨语言传输效果不理想,没有显著提高模型的性能 Tamil-English, Malayalam English, SentiMix Hinglish
Cross-Lingual Sentiment Analysis Based on Pre-Trained Model
