跨语言情感分析研究综述*
徐月梅,曹晗,王文清,杜宛泽,徐承炀

Cross-Lingual Sentiment Analysis: A Survey
Xu Yuemei,Cao Han,Wang Wenqing,Du Wanze,Xu Chengyang
表3 基于跨语言词嵌入的跨语言情感分析
Table3 Cross-Lingual Sentiment Analysis Based on CLWE
作者 模型 特点 数据来源 语种 准确率/%
Chen等[46] RBST 将语言差异建模为源语言和目标语言在每个特定极性下的固定转移向量,基于此向量确定目标语言文档情感 亚马逊产品评论数据;
微博评论数据
英-中 81.5
Abdalla等[47] SVM;
LR分类器
借助由机器翻译获得的单词对来计算从源语言到目标语言向量空间的转换矩阵 谷歌新闻数据集;西班牙十亿单词语料库;维基百科数据;谷歌万亿单词语料库;中文酒店评论数据集 英-中 F: 77.0
英-西 F: 81.0
Dong等[48] DC-CNN 基于标注的双语平行语料库,将潜在的情感信息编码到跨语言词向量中 SST影评;TA旅游网站评论;AC法国电视剧评论;SE16-T5餐馆评论;AFF亚马逊美食评论 英-西 85.93
英-荷 79.30
英-俄 93.26
英-德 92.31
英-捷 93.69
英-意 96.48
英-法 92.97
英-日 88.08
Akhtar等[49] Bilingual-SGNS 结合负采样的双语连续跳跃元语法模型构建两种语言的词嵌入向量表示并映射至同一空间,用于细粒度方面级情感分析 印地语ABSA数据集;英语SemEval-2014数据集 英-印 多语言设置:76.29
跨语言设置:60.39
Atrio等[50] SVM; SNN; BiLSTM 对目标语言进行词序调整以提高短文本情感分析的性能 OpeNER语料库;
加泰罗尼亚MultiBooked数据集
英-西 Bi: F=65.1
4-C: F=35.8
英-加 Bi: F=65.6
4-C: F=38.1
Peirsman等[51] Cross-Lingual Selectional Preferences Model 使用双语同根词构成的小样本种子词典作为初始解构造双语词向量空间,生成双语词向量 TiGer语料库;AMT 西-英 47.0
德-英 48.0
Vuli?等[52] MuPTM 利用多语言概率模型对单词间一对多的映射关系生成一一映射的种子词典,以此作为初始解生成跨语言词向量 维基百科文章 西-英 89.1
意-英 88.2
Artetxe等[38] Self-Learning Framework 基于两种语言单语词向量间的相似度构造种子词典 英-意数据集;
ukWaC+Wikipedi+BNC;itWaC;Europarl;OPUS;SdeWaC;28亿词Common Crawl语料库;RG-65 & WordSim-353跨语言数据集
英-意 37.27
英-德 39.60
英-芬 28.16
Chen等[53] Ermes 将emoji表情符号作为补充情感监督信息,获得源-目标语言融合情感信息的句子表征 亚马逊产品评论数据;推特数据 英-日 80.17
英-法 86.5
英-德 86.6
Barnes等[54] BLSE 借助一个小的双语词典和源语言带标注的情感数据,得到双语映射到同一个共享向量空间、同时携带情感信息的变换矩阵 OpeNER;MultiBooked数据集 英-西 Bi:F=80.3
4-C:F=50.3
英-加 Bi:F=85.0
4-C:F=53.9
英-巴 Bi:F=73.5
4-C:F=50.5
Gouws等[55] BiBOWA 利用粗糙的双语数据,基于优化过的词语相似度矩阵计算方法无监督地生成跨语言词向量 路透社RCV1/RCV2多语语料库;EuroParl 英-德 86.5
德-英 75.0
Barone等[44] AAE 首次使用对抗性自动编码器将源语言词向量映射到目标语言词向量空间中 维基百科语料库;路透社语料库;2015 News Commentary语料库 英-意
英-德
Shen等[56] TL-AAE-
BiGRU
利用对抗自动编码器学习双语平行文本,通过线性变换矩阵将双语映射到同一向量空间 亚马逊产品评论数据 英-中 F: 78.57
英-德
Artetxe等[57] Vecmap 利用无监督模型Vecmap构造初始解,去除对小规模种子词典的依赖 英-意数据集;EuroParl;OPUS; 英-意 48.13
英-德 48.19
英-芬 32.63
英-西 37.33
Rasooli等[58] NBLR+
POSwemb;LSTM
使用多种源语言缩小源-目标语言间的差异,并采用标注投影和直接迁移两种迁移方法为资源稀缺的语言构造健壮的情感分析系统 推特数据;SentiPer;SemEval 2017 Task 4;BQ;EuroParl;LDC;GIZA++;维基百科文章 单源设置
英-中 F: 66.8
英-德 F: 51.0
英-瑞典 F: 49.0
英-克、英-匈、英-波斯、英-波兰等实验性能详见文献[58]
多源设置
F: 54.7
波兰 F: 54.6
F: 54.0
阿拉伯语、保加利亚语、中文、克罗地亚语等实验性能详见文献[58]