%A 谭荧, 唐亦非 %T 基于指代消解的引文内容抽取研究* %0 Journal Article %D 2021 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2021.0226 %P 25-33 %V 5 %N 8 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_5139.shtml} %8 2021-08-25 %X

【目的】 为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】 将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【结果】 实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849。【局限】 缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷。【结论】 本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考。