跨语言情感分析研究综述*
|
徐月梅,曹晗,王文清,杜宛泽,徐承炀
|
Cross-Lingual Sentiment Analysis: A Survey
|
Xu Yuemei,Cao Han,Wang Wenqing,Du Wanze,Xu Chengyang
|
|
表2 跨语言词嵌入生成方法分类及总结
|
Table2 Classification and Summarization of Cross-Lingual Word Embedding Generation
|
|
方法 | 主要思路 | 优点 / 缺点 | 有监督的方法 | 借助大量的双语平行文本 | 优点:将平行文本蕴含的嵌入空间(Embedding Space)信息作为参考,有效保证映射的效果; 缺点:双语平行语料难以获得,尤其是大规模的双语平行语料。 | 半监督的方法 | 基于小样本的启发式双语种子词典作为映射锚点,学习转移矩阵 | 优点:只需要用到小样本的种子词典,较易获得; 缺点:本质上是利用种子词典对齐词空间的映射矩阵来代替整个空间的映射矩阵,不一定能代表源-目标语言整个空间的映射矩阵。 | 完全无监督的方法 | 借助大规模的非平行语料资源,通过生成对抗网络、自动编码器-解码器等模型学习双语之间的转换矩阵 | 优点:无需借助平行语料库/双语词典; 缺点:存在初始化不鲁棒问题,对于初始解要求比较高,不同的初始解对结果影响较大;在缺少监督信息的情况下,容易陷入局部最优解。 |
|
|
|