Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (8): 25-33     https://doi.org/10.11925/infotech.2096-3467.2021.0226
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于指代消解的引文内容抽取研究*
谭荧1(),唐亦非2
1湖北大学公共管理学院 武汉 430062
2华中师范大学信息管理学院 武汉 430079
Extracting Citation Contents with Coreference Resolution
Tan Ying1(),Tang Yifei2
1School of Public Administration, Hubei University, Wuhan 430062, China
2School of Information Management, Central China Normal University, Wuhan 430079, China
全文: PDF (701 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】 将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【结果】 实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849。【局限】 缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷。【结论】 本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谭荧
唐亦非
关键词 信息抽取指代消解引文内容引文上下文    
Abstract

[Objective] This paper aims to accurately extract scientific citations and their context data, which significantly improves the results of citation analysis. [Methods] We divided the citation extraction task into citation sentence extraction, citation context identification, and citation metadata. Then, we proposed a coreference resolution-based method to identify and extract scientific citation context. [Results] We examined our method with the Chinese sequential coding periodicals and extracted the citation sentences and references correctly. The F1 value for identifying the citation context was between 0.780 and 0.849. [Limitations] Due to the limits of Chinese scientific citation corpus and the small scale of experimental data, the proposed method might not work effectively in other fields. [Conclusions] Our study optimizes the steps of citation content analysis and enlarges data scope. It provides support for researchers of citation content analysis.

Key wordsInformation Extraction    Coreference Resolution    Citation Content    Citation Context
收稿日期: 2021-03-08      出版日期: 2021-09-15
ZTFLH:  G250  
基金资助:*国家社会科学基金重大项目(19ZDA345)
通讯作者: 谭荧 ORCID:0000-0002-7987-4696     E-mail: tanying1219@qq.com
引用本文:   
谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
Tan Ying, Tang Yifei. Extracting Citation Contents with Coreference Resolution. Data Analysis and Knowledge Discovery, 2021, 5(8): 25-33.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0226      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I8/25
Fig.1  引文内容抽取流程
特征 含义
位置特征 句位置 引文句和候选上下文的位置和距离关系
标题位置 引文句和候选上下文是否位于同一标题
段落位置 引文句和候选上下文是否位于同一段落
段内位置 候选句位于段落的相对位置
指代特征 第三人称代词 句中是否含有第三人称代词
指示代词 句中是否有指示代词
语义特征 人名 句中是否包含引文作者名
文献名 句中是否包含文献名
专有名词 句中分别包含领域知识全称和简称
连词 句中是否包含连词
引文特征 候选句引文 候选上下文句是否包含引文
引文标识符数量 目标引文句中包含引文标识符个数
Table 1  引文上下文识别特征集
Fig.2  引文内容标注示例
Fig.3  引文上下文相对位置分布
Fig.4  引文句抽取结果
类型 提及检测 筛选过滤 高频词
第三人称代词 149 15 他,他们,她
指示代词 449 384 该,其,这,此,另
人名 952 17
文献名 68 15
专有名词 36 36 LSA,LDA,NPLM
连词 1 777 549 然而,但,此外,总体而言
Table 2  提及词检测和过滤结果
序号 特征 类型 信息增益
1 与目标引文的位置距离 Nominal 0.328 05
2 候选上下文句是否包含引文 Nominal 0.240 31
3 目标引文句中的引文数量 Numeric 0.240 31
4 是否位于同一段落 Nominal 0.140 75
5 是否位于同一标题 Nominal 0.099 91
6 是否包含有效指示代词 Nominal 0.048 26
7 候选句的段落位置 Nominal 0.039 05
8 是否包含有效第三人称代词 Nominal 0.031 07
9 是否包含引文作者名 Nominal 0.030 64
10 是否包含文献名 Nominal 0.005 84
11 是否包含有效连词 Nominal 0.002 58
12 是否包含有效专有名词 Nominal 0.001 98
Table 3  引文上下文识别特征集和信息增益
随机
样本集
初始特征集 过滤筛选后特征集
准确率 召回率 F1 准确率 召回率 F1
1 0.787 0.819 0.803 0.833 0.833 0.833
2 0.852 0.485 0.611 0.829 0.853 0.841
3 0.821 0.697 0.754 0.842 0.727 0.780
4 0.809 0.833 0.821 0.826 0.864 0.844
5 0.841 0.841 0.841 0.792 0.826 0.809
6 0.844 0.806 0.824 0.824 0.836 0.830
7 0.792 0.884 0.836 0.805 0.899 0.849
8 0.817 0.853 0.835 0.787 0.868 0.825
9 0.828 0.779 0.803 0.862 0.824 0.842
10 0.762 0.716 0.738 0.783 0.806 0.794
Table 4  随机样本对照实验结果评测
[1] Small H. Citations and Consilience in Science[J]. Scientometrics, 1998, 43(1):143-148.
doi: 10.1007/BF02458403
[2] Bergmark D, Phempoonpanich P, Zhao S M. Scraping the ACM Digital Library[J]. ACM SIGIR Forum, 2001, 35(2):1-7.
[3] Bergmark D. Automatic Extraction of Reference Linking Information from Online Documents[R]. Cornell University, 2000.
[4] Sarawagi S, Vydiswaran V G V, Srinivasan S, et al. Resolving Citations in a Paper Repository[J]. ACM SIGKDD Explorations Newsletter, 2003, 5(2):156-157.
doi: 10.1145/980972.980995
[5] Giles C L, Bollacker K D, Lawrence S. CiteSeer: An Automatic Citation Indexing System[C]// Proceedings of the 3rd ACM Conference on Digital Libraries. 1998: 89-98.
[6] Wellner B, McCallum A, Peng F C, et al. An Integrated, Conditional Model of Information Extraction and Coreference with Applications to Citation Matching[C]// Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. 2004: 593-601.
[7] Takasu A. Bibliographic Attribute Extraction from Erroneous References Based on a Statistical Model[C]// Proceedings of the 3rd ACM/IEEE-CS Joint Conference on Digital Libraries. IEEE Computer Society, 2003: 49-60.
[8] Ding Y, Chowdhury G, Foo S. Template Mining for the Extraction of Citation from Digital Documents[C]// Proceedings of the 2nd Asian Digital Library Conference. 1999: 47-62.
[9] Nanba H, Okumura M. Towards Multi-paper Summarization Using Reference Information[C]// Proceedings of International Joint Conference on Artificial Intelligence. 1999: 926-931.
[10] Nanba H, Kando N, Okumura M. Classification of Research Papers Using Citation Links and Citation Types: Towards Automatic Review Article Generation[J]. Advances in Classification Research Online, 2011, 11(1):117-134.
[11] Mei Q Z, Zhai C X. Generating Impact-Based Summaries for Scientific Literature[C]// Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics. 2008: 816-824.
[12] Abu-Jbara A, Radev D. Reference Scope Identification in Citing Sentences[C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2012: 80-90.
[13] Qazvinian V, Radev D R. Identifying Non-explicit Citing Sentences for Citation-based Summarization[C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010: 555-564.
[14] Qazvinian V, Radev D R. Scientific Paper Summarization Using Citation Summary Networks[OL]. arXiv Preprint, arXiv: 0807. 1560.
[15] Teufel S, Siddharthan A, Tidhar D. Automatic Classification of Citation Function[C]// Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. 2006: 103-110.
[16] Teufel S, Siddharthan A, Tidhar D. An Annotation Scheme for Citation Function[C]// Proceedings of the 7th SIGDIAL Workshop on Discourse and Dialogue. 2006: 80-87.
[17] Athar A, Teufel S. Context-enhanced Citation Sentiment Detection[C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2012: 597-601.
[18] 雷声伟, 陈海华, 黄永, 等. 学术文献引文上下文自动识别研究[J]. 图书情报工作, 2016, 60(17):78-87.
[18] ( Lei Shengwei, Chen Haihua, Huang Yong, et al. Research on Automatic Recognition of Academic Citation Context[J]. Library and Information Service, 2016, 60(17):78-87.)
[19] 章成志, 徐津, 马舒天. 学术文本被引片段的自动识别研究[J]. 情报理论与实践, 2019, 42(9):139-145.
[19] ( Zhang Chengzhi, Xu Jin, Ma Shutian. Automatic Identification of Cited Spans in Academic Articles[J]. Information Studies: Theory & Application, 2019, 42(9):139-145.)
[20] McCarth J F, Lenhner W G. Using Decision Trees for Coreference Resolution[OL]. arXiv Preprint, arXiv: cmp-lg/9505043, 1995.
[21] Soon W M, NG H T, Lim D C Y. A Machine Learning Approach to Coreference Resolution of Noun Phrases[J]. Computational Linguistics, 2001, 27(4):521-544.
doi: 10.1162/089120101753342653
[22] Ng V, Cardie C. Improving Machine Learning Approaches to Coreference Resolution[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002: 104-111.
[23] Lee H, Peirsman Y, Chang A, et al. Stanford’s Multi-pass Sieve Coreference Resolution System at the CoNLL-2011 Shared Task[C]// Proceedings of the 15th Conference on Computational Natural Language Learning: Shared Task. 2011: 28-34.
[24] Chen C, Ng V. Chinese Noun Phrase Coreference Resolution: Insights into the State of the Art[C]// Proceedings of COLING 2012. 2012:185-194.
[1] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[2] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[3] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[4] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[5] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[6] 徐健, 李纲, 毛进, 叶光辉. 文献被引片段特征分析与识别研究[J]. 数据分析与知识发现, 2017, 1(11): 37-45.
[7] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[8] 刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
[9] 李湘东, 霍亚勇, 黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术, 2014, 30(4): 71-77.
[10] 刘雅静, 王衍喜, 郝丹, 周津慧. 机构知识库支撑科研服务方法研究[J]. 现代图书情报技术, 2014, 30(3): 1-7.
[11] 卢超, 章成志. 基于引文内容的单篇学术论文参考文献网络结构研究[J]. 现代图书情报技术, 2014, 30(10): 33-41.
[12] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[13] 张晗, 刘双梅. 中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J]. 现代图书情报技术, 2013, (6): 30-35.
[14] 黄勋, 游宏梁, 于洋. 关系抽取技术研究综述[J]. 现代图书情报技术, 2013, 29(11): 30-39.
[15] 何琳, 何娟, 沈耕宇, 杨波, 黄水清. 一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J]. 现代图书情报技术, 2012, 28(7): 109-114.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn