自然语言处理中的注意力机制研究综述<sup>*</sup>

自然语言处理中的注意力机制研究综述^*

石磊,王毅,成颖,魏瑞斌

Review of Attention Mechanism in Natural Language Processing

Shi Lei,Wang Yi,Cheng Ying,Wei Ruibin

表5 部分NMT模型在WMT14数据集上的表现

Table 5 The Performance of NMT Models on WMT14

作者	模型	网络	BLEU（%）		训练开销（FLOPs）
作者	模型	网络	英-德	英-法	英-德	英-法
Wu等^[59]	GNMT+RL	LSTM	24.6	39.92	2.3×10¹⁹	1.4×10²⁰
Wu等^[59]	GNMT+RL（ensemble）	LSTM	26.3	41.16	1.8×10²⁰	1.1×10²¹
Gehring等^[60]	ConvS2S	CNN	25.16	40.46	9.6×10¹⁸	1.5×10²⁰
Gehring等^[60]	ConvS2S（ensemble）	CNN	26.36	41.29	7.7×10¹⁹	1.2×10²¹
Vaswani等^[6]	Transformer（big）	多头自注意力	28.4	41	2.3×10¹⁹