自然语言处理中的注意力机制研究综述*
石磊,王毅,成颖,魏瑞斌

Review of Attention Mechanism in Natural Language Processing
Shi Lei,Wang Yi,Cheng Ying,Wei Ruibin
表4 部分NLI模型在SNLI数据集上的表现
Table 4 The Performance of NLI Models on SNLI
作者 模型 训练集准确率(%) 测试集准确率(%) 注意力
Bowman等[50] 300D LSTM Encoders 83.9 80.6
Rocktaschel等[19] 100D LSTM with Attention 85.3 83.5 双路注意力
Lin等[27] 300D Structured Self-Attentive Sentence Embedding - 84.4 自注意力
Shen等[28] 300D Directional Self-Attention Network (DiSAN) 91.1 85.6 定向自注意力
Cheng等[22] 300D LSTMN Deep Fusion - 85.7 互注意力+内部注意力
Im等[51] 300D Distance-based Self-Attention Network 89.6 86.3 定向+距离自注意力
Shen等[52] 300D ReSAN 92.6 86.3 软硬混合自注意力
Parikh等[53] 300D Intra-Sentence Attention 90.5 86.8 互注意力+内部注意力
Tay等[54] 300D CAFE (AVGMAX+300D HN) 89.8 88.5 互注意力+内部注意力