自然语言处理中的注意力机制研究综述*
|
石磊,王毅,成颖,魏瑞斌
|
Review of Attention Mechanism in Natural Language Processing
|
Shi Lei,Wang Yi,Cheng Ying,Wei Ruibin
|
|
表5 部分NMT模型在WMT14数据集上的表现
|
Table 5 The Performance of NMT Models on WMT14
|
|
作者 | 模型 | 网络 | BLEU(%) | 训练开销(FLOPs) | 英-德 | 英-法 | 英-德 | 英-法 | Wu等[59] | GNMT+RL | LSTM | 24.6 | 39.92 | 2.3×1019 | 1.4×1020 | GNMT+RL(ensemble) | 26.3 | 41.16 | 1.8×1020 | 1.1×1021 | Gehring等[60] | ConvS2S | CNN | 25.16 | 40.46 | 9.6×1018 | 1.5×1020 | ConvS2S(ensemble) | 26.36 | 41.29 | 7.7×1019 | 1.2×1021 | Vaswani等[6] | Transformer(big) | 多头自注意力 | 28.4 | 41 | 2.3×1019 |
|
|
|