跨语言情感分析研究综述*
徐月梅,曹晗,王文清,杜宛泽,徐承炀

Cross-Lingual Sentiment Analysis: A Survey
Xu Yuemei,Cao Han,Wang Wenqing,Du Wanze,Xu Chengyang
表1 早期跨语言情感分析的代表研究
Table 1 Representative Researches on Early Cross-Lingual Sentiment Analysis
作者 模型 特点 数据来源 语种 准确率/%
He*[16] LSM 借助对源语言情感词典的翻译,得到目标语言的情感词先验知识,纳入到LDA模型进行学习 中国商品评论数据 英-中 81.41
Zhang等*[17] ATTM 基于训练集选择,将与目标语言高度相似的标记样本放入训练集中,构建一个以目标语言为中心的跨语言情感分类器 测试集: COAE2014;
训练集:中国科学院计算技术研究所带标记中文数据集
中-德 84.3
中-英 87.7
中-法 80.1
中-西 83.3
Al-Shabi等*[18] SVM、NB、KNN 设置标准数据集对机器翻译优化,以此找到最优的基线模型,并确定了机器翻译数据中的噪声与情感分类精度之间的关系 亚马逊产品评论 英-阿
Hajmohammadi等*[19] MLMV 将多种源语言的标记数据作为训练集,克服从单一源语言到目标语言的机器翻译过程导致的泛化问题 亚马逊产品评论;
Pan Reviews数据集
英+德-法 79.85
英+法-德 81.55
英+法-日 73.73
英+日-中 76.65
Hajmohammadi等*[20] DBAST 将目标语言无标记文档通过机器翻译转化为源语言文档后,从中选择信息量最大、最可信的样本进行标记以丰富训练数据 亚马逊产品评论;
Pan Reviews数据集
英-法 78.63
英-中 71.36
英-日 70.04
Hajmohammadi等*[21] Graph-Based
Semi-Supervised
Learning Model
提出一种基于多视图的半监督学习模型,将目标语言中未标记的数据合并到多视图半监督学习模型中,即在文档级分析中加入目标语言内在结构的学习 亚马逊产品评论;
Pan Reviews数据集
英-中 73.81
英-日 72.72
Lu等&[22] Joint 联合双语有情感标注的平行语料库和未标记平行数据,为每种语言同时学习更好的单语情感分类器 MPQA; NTCIR-EN;
NTCIR-CH; ISI中-
英平行语料库
英-中 83.54
中-英 79.29
Meng等&[23] CLMM 不依赖机器翻译标记目标语言文本,从未标记的平行语料库中通过拟合参数学习情感词,扩大词汇覆盖率 MPQA; NTCIR-EN;
NTCIR-CH; ISI中-
英平行语料库
英-中 83.02
Gao等&[24] BLP 基于平行语料库和词对齐构建双语词图,从现有源语言(英语)情感词典中学习到目标语言的情感词典 General Inquirer Lexicon;ISI中-英平行语料库;NTCIR情感语料库 英-中 78.90
Zhou等&[25] NMF 提出一个子空间学习框架,利用少量文档对齐的并行数据和双语下非并行数据,缩小源语言和目标语言的差距 亚马逊产品评论 英-法 81.83
英-德 80.45
英-日 75.78
法-英 79.47
德-英 79.56
日-英 78.79