跨语言情感分析研究综述*
徐月梅,曹晗,王文清,杜宛泽,徐承炀

Cross-Lingual Sentiment Analysis: A Survey
Xu Yuemei,Cao Han,Wang Wenqing,Du Wanze,Xu Chengyang
表4 基于预训练模型的CLSA研究
Table4 Cross-Lingual Sentiment Analysis Based on Pre-Trained Model
作者 模型 任务 优点 缺点 数据集
Pires等[75] Multilingual BERT 零次跨语言模式迁移 在零样本跨语言任务中表现出色,尤其是当源和目标相似时 在某些语言对的多语言表示上表现出系统性的缺陷 Code-Switching Hindi, English Universal Dependencies Corpus
Lample等[76] XLM 预训练模型的跨语言表征 利用平行语料引导模型表征对齐,提升预训练模型的跨语言表征性能 训练数据规模相对较小,尤其对于资源较少的语言 MultiUN, IIT Bombay Corpus, EUbookshop Corpus
Conneau等[77] XLM-RoBERTa 跨语言分类、序列标注和问答 使用大规模多语言预训练,在跨语言分类、序列标注和问答上表现出色 模型有大量的代码合成词,导致系统无法理解句子的内在含义 Common Crawl Corpus in 100 Languages, Wikipedia Corpus
Xia等[78] MetaXL 跨语言情感分析的多语言传输 使目标语言和源语言在表达空间中更接近,具有良好的传输性能 尚未探索在预训练模型的多个层上放置多个转换网络 亚马逊产品评论数据,SentiPers, Sentiraama
Bataa等[79] ELMo
ULMFiT
BERT
针对日语的情感分类 使用知识迁移技术和预训练模型解决日语情感分类 没有执行K折交叉验证 Japanese Rakuten Review Binary, Five Class Yahoo Datasets
Gupta等[80] BERT
Multi-BERT等
情感分析中的任务型预训练和跨语言迁移 针对性强,表现良好,可作为未来情感分析任务的基线模型 在特定数据集上的跨语言传输效果不理想,没有显著提高模型的性能 Tamil-English, Malayalam English, SentiMix Hinglish