%A 秦成磊,章成志 %T 基于层次注意力网络模型的学术文本结构功能识别* %0 Journal Article %D 2020 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2020.0364 %P 26-42 %V 4 %N 11 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4959.shtml} %8 2020-11-25 %X

【目的】 针对当前学术文本章节功能识别存在诸多不足的现状,提出使用层次注意力网络模型提升学术文本章节功能识别的效果。【方法】 首先,构建能够捕获章节结构信息的不同粒度的层次注意力网络模型,对比分析使用不同文本特征向量的传统机器学习模型、Bert模型与层次注意力网络模型在PLoS的4种期刊规范数据集上的学术文本结构功能的识别结果以获取最佳模型;随后,使用最佳模型识别Atmospheric Chemistry and Physics(ACP,IF 5.6)期刊中章节标题命名缺乏规范且人工标注结构功能一致性较低的章节的结构功能,并提出使用参考文献分布相似、动词线索词分布相似评估识别结果;最后,对所构建的层次注意力网络模型的领域适应性进行分析。【结果】 以Bi-LSTM+Attention为编码器的句子级层次注意力网络模型识别效果优于其他模型,Macro-F1值为0.866 1;存在领域适应问题,在差异较大的领域中模型识别性能下降明显,Macro-F1值最低为0.455 4。【局限】 不能识别具有混合结构的章节的功能;模型中未考虑文章结构之间的逻辑关系。【结论】 句子级层次注意力网络模型能够较好地识别章节的结构功能,引入学术文本结构信息能够丰富和拓展基于学术论文全文本相关研究的研究内容与范围。