%A 余丽,钱力,付常雷,赵华茗 %T 基于深度学习的文本中细粒度知识元抽取方法研究* %0 Journal Article %D 2019 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2018.1352 %P 38-45 %V 3 %N 1 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4600.shtml} %8 2019-01-25 %X

【目的】改进Bootstrapping方法, 建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库; 基于Bootstrapping技术自动构建大规模的标注语料库, 利用知识元评分模型和模式评分模型控制标注的质量; 基于已标注多类型知识元的语料库训练LSTM-CRF模型, 从文本中抽取新的知识元。【结果】基于17 756篇ACL论文摘要抽取“研究范畴”、“研究方法”、“实验数据”、“评价指标及取值”这4种知识元, 其人工评价平均正确率为91%。【局限】模型参数的预设与调整需要人工参与, 未对不同领域文本进行适用性验证。【结论】引入知识元与模式的评分模型, 能够有效缓解“语义漂移”问题; 基于深度学习模型抽取知识元实现快速且正确率高, 为情报大数据智能分析提供了一种高效可靠的数据获取手段。