数据分析与知识发现  2020, Vol. 4 Issue (6): 35-42
武汉大学信息管理学院 武汉 430072
Constructing Data Set for Location Annotations of Academic Literature Figures and Tables
Yu Fengchang,Lu Wei()
School of Information Management, Wuhan University, Wuhan 430072, China
【目的】 提出用于学术文献的尺寸自适应模板匹配算法,快速构建大规模学术文献图表位置标注数据集。【方法】 PubMed Open Access数据集提供文献和图表的图片格式文件,解析文献内容,匹配文献页面和图表的图片格式文件,对页面和图表的图片格式文件进行特征提取,对特征点进行匹配,定位图表位置。【结果】 使用本文方法对测试数据集进行标注实验,精确率为98.87%,F1值为97.44%。【局限】 匹配文献页面和图表的图片格式文件的算法仅使用简单的关键词匹配方式,性能仍有提升空间。【结论】 本文算法能够快速地构造学术文献图表位置数据集,节省大量人力时间成本。

关键词 数据集标注模板匹配学术文献    

[Objective] This study proposes a size-adaptive template matching algorithm to quickly construct large-scale data set for academic literature figure and table positions. [Methods] First, we used the PubMed Open Access database to retrieve documents with figure/table images, and parsed their contents. Then, we matched document pages and pictures to extract their features. Finally, we identified the figure/table positions based on matched feature points. [Results] The proposed method’s precision and F1 value reached 98.87% and 97.44%, respectively. [Limitations] We only used simple keywords to match literature pages and figure/table pictures. [Conclusions] ;The proposed algorithm could quickly construct data set for chart positions in academic literature.

Key wordsData Set Annotation    Template Matching    Academic Literature
收稿日期: 2019-12-13      出版日期: 2020-04-23
ZTFLH:  TP393  
通讯作者: 陆伟     E-mail:
于丰畅,陆伟. 一种学术文献图表位置标注数据集构建方法[J]. 数据分析与知识发现, 2020, 4(6): 35-42.
Yu Fengchang,Lu Wei. Constructing Data Set for Location Annotations of Academic Literature Figures and Tables. Data Analysis and Knowledge Discovery, 2020, 4(6): 35-42.
Fig. 1  标注方式示意图
Fig. 2  尺寸自适应模板匹配的算法流程图
Fig. 3  图表标注样例
性能指标 精确率 召回率 F1
结果 98.87% 96.06% 97.44%
Table 1  标注实验结果
Fig. 4  模板与文献页对应关系错误
Fig. 5  图片角特征过少导致匹配错误
