自然语言处理中的注意力机制研究综述*
|
石磊,王毅,成颖,魏瑞斌
|
Review of Attention Mechanism in Natural Language Processing
|
Shi Lei,Wang Yi,Cheng Ying,Wei Ruibin
|
|
表4 部分NLI模型在SNLI数据集上的表现
|
Table 4 The Performance of NLI Models on SNLI
|
|
作者 | 模型 | 训练集准确率(%) | 测试集准确率(%) | 注意力 | Bowman等[50] | 300D LSTM Encoders | 83.9 | 80.6 | 无 | Rocktaschel等[19] | 100D LSTM with Attention | 85.3 | 83.5 | 双路注意力 | Lin等[27] | 300D Structured Self-Attentive Sentence Embedding | - | 84.4 | 自注意力 | Shen等[28] | 300D Directional Self-Attention Network (DiSAN) | 91.1 | 85.6 | 定向自注意力 | Cheng等[22] | 300D LSTMN Deep Fusion | - | 85.7 | 互注意力+内部注意力 | Im等[51] | 300D Distance-based Self-Attention Network | 89.6 | 86.3 | 定向+距离自注意力 | Shen等[52] | 300D ReSAN | 92.6 | 86.3 | 软硬混合自注意力 | Parikh等[53] | 300D Intra-Sentence Attention | 90.5 | 86.8 | 互注意力+内部注意力 | Tay等[54] | 300D CAFE (AVGMAX+300D HN) | 89.8 | 88.5 | 互注意力+内部注意力 |
|
|
|