自然语言处理中的注意力机制研究综述<sup>*</sup>

自然语言处理中的注意力机制研究综述^*

石磊,王毅,成颖,魏瑞斌

Review of Attention Mechanism in Natural Language Processing

Shi Lei,Wang Yi,Cheng Ying,Wei Ruibin

表4 部分NLI模型在SNLI数据集上的表现

Table 4 The Performance of NLI Models on SNLI

作者	模型	训练集准确率（%）	测试集准确率（%）	注意力
Bowman等^[50]	300D LSTM Encoders	83.9	80.6	无
Rocktaschel等^[19]	100D LSTM with Attention	85.3	83.5	双路注意力
Lin等^[27]	300D Structured Self-Attentive Sentence Embedding	-	84.4	自注意力
Shen等^[28]	300D Directional Self-Attention Network (DiSAN)	91.1	85.6	定向自注意力
Cheng等^[22]	300D LSTMN Deep Fusion	-	85.7	互注意力+内部注意力
Im等^[51]	300D Distance-based Self-Attention Network	89.6	86.3	定向+距离自注意力
Shen等^[52]	300D ReSAN	92.6	86.3	软硬混合自注意力
Parikh等^[53]	300D Intra-Sentence Attention	90.5	86.8	互注意力+内部注意力
Tay等^[54]	300D CAFE (AVGMAX+300D HN)	89.8	88.5	互注意力+内部注意力