%A 陈果,许天祥 %T 基于主动学习的科技论文句子功能识别研究 * %0 Journal Article %D 2019 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2018.1198 %P 53-61 %V 3 %N 8 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4696.shtml} %8 2019-08-25 %X

【目的】为降低对人工标注语料的依赖, 探索利用主动学习方法, 充分结合现成的结构化摘要和有针对性的少量人工标注, 以获得具有更好泛化能力的句子功能分类模型, 识别文献句子功能类型(如表述研究的目的、方法、结论等)。【方法】以结构化摘要功能句为初始语料训练SVM、CNN、Bi-LSTM三种初始分类器, 再展开主动学习: 对大量无标签普通摘要句子进行功能预测, 自动筛选不确定性高的样例提请人工标注, 标注结果用于优化初始分类器, 迭代进行主动学习, 以提高分类器在新任务场景下的泛化性能。【结果】在图书情报学科文献集上实验表明, 开展主动学习可取得较好的句子功能分类效果, 准确率、召回率、F1值达84.65%、84.49%、84.57%, 较主动学习前分别提升3.25%、3.24%、3.25%。【局限】为避免大量的人工语料标注工作, 仅做了5次迭代。【结论】主动学习方法善于发现新任务场景下未标注语料与已有现成训练语料的差异, 有针对性地降低人工标注成本, 以提升基本模型的泛化能力。后续可进一步扩展应用于其他场景下(如引文、全文)的句子功能识别。