自然语言处理中的注意力机制研究综述*
石磊,王毅,成颖,魏瑞斌

Review of Attention Mechanism in Natural Language Processing
Shi Lei,Wang Yi,Cheng Ying,Wei Ruibin
表5 部分NMT模型在WMT14数据集上的表现
Table 5 The Performance of NMT Models on WMT14
作者 模型 网络 BLEU(%) 训练开销(FLOPs)
英-德 英-法 英-德 英-法
Wu等[59] GNMT+RL LSTM 24.6 39.92 2.3×1019 1.4×1020
GNMT+RL(ensemble) 26.3 41.16 1.8×1020 1.1×1021
Gehring等[60] ConvS2S CNN 25.16 40.46 9.6×1018 1.5×1020
ConvS2S(ensemble) 26.36 41.29 7.7×1019 1.2×1021
Vaswani等[6] Transformer(big) 多头自注意力 28.4 41 2.3×1019