Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 3 Issue (2): 102-106     https://doi.org/10.11925/infotech.1003-3513.2009.02.17
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
PDF科技论文语义元数据的自动抽取研究*
张秀秀  马建霞
(中国科学院国家科学图书馆兰州分馆   兰州 730000)
Automatic Extraction of Semantic Metadata from PDF Research Papers
Zhang Xiuxiu   Ma Jianxia
(The Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China)
全文: PDF (664 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张秀秀
马建霞
关键词 PDF科技论文语义元数据自动抽取    
Abstract

This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule-based matching and format-based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively.

Key wordsPDF    Research paper    Semantic metadata    Automatic extraction
收稿日期: 2008-11-03      出版日期: 2009-02-25
: 

TP391.43

 
基金资助:

* 本文系中国科学院国家科学图书馆青年人才领域前沿项目“元数据自动抽取工具在数字知识库建设中的应用研究与开发”和国家社会科学基金项目“机构知识库建设与应用研究”(项目编号:07BTQ019)的研究成果之一。

通讯作者: 张秀秀     E-mail: zhangxx@llas.ac.cn
作者简介: 张秀秀,马建霞
引用本文:   
张秀秀,马建霞. PDF科技论文语义元数据的自动抽取研究*[J]. 现代图书情报技术, 2009, 3(2): 102-106.
Zhang Xiuxiu ,Ma Jianxia. Automatic Extraction of Semantic Metadata from PDF Research Papers. New Technology of Library and Information Service, 2009, 3(2): 102-106.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.02.17      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V3/I2/102

[1] 李朝光, 张铭, 邓志鸿, 等. 论文元数据信息的自动抽取[J].计算机工程与应用, 2002(21):189-191,235.
[2] Min Yuh Day, Richard Tzong Han Tsai, Cheng Lung Sung, et al. Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J].Decision Support Systems, 2007(43):152–167.
[3] Hu Y H, Li H, Cao Y B, et al. Automatic Extraction of Titles from General Documents Using Machine Learning[J].Information Processing and Management, 2006,42(1):1276-1293.
[4] Yu J D, Fan X Z. Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[J/OL]. [2008-10-21]. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=4405975&isnumber=4405869.
[5] Giles C L, Bollacker K D, Lawrence S. CiteSeer: An Automatic Citation Indexing System[J/OL]. [2008-10-21].http://clgiles.ist.psu.edu/papers/DL-1998-citeseer.pdf.
[6] 陈俊林, 张文德. 基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术, 2007(2):18-23.
[7] PDF Reference[EB/OL].[2008-04-15]. http://www.adobe.com/devnet/pdf/pdfs/PDFReference13.pdf.

[1] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[2] 刘庆祥,张朋柱,张晓燕,刘景方. 网络环境下人才知识结构的自动抽取方法*[J]. 现代图书情报技术, 2016, 32(4): 56-63.
[3] 曾文,徐硕,张运良,翟娟华. 科技文献术语的自动抽取技术研究与分析*[J]. 现代图书情报技术, 2014, 30(1): 51-55.
[4] 李宇, 王威. PDF过量下载监测的设计与原型实现[J]. 现代图书情报技术, 2011, 27(4): 71-76.
[5] 曾苏,马建霞,张秀秀. 元数据自动抽取研究新进展*[J]. 现代图书情报技术, 2008, 24(4): 7-11.
[6] 何琳. 领域本体的关系抽取研究*[J]. 现代图书情报技术, 2008, 24(4): 35-38.
[7] 谈春梅,颜世伟,刘子牧. 网络专题知识组织知识元自动抽取系统的设计与实现*[J]. 现代图书情报技术, 2008, 24(3): 62-67.
[8] 刘凡馨 . 基于PDF417条形码的读者证件系统的设计与实现[J]. 现代图书情报技术, 2007, 2(6): 83-86.
[9] 陈俊林,张文德 . 基于XSLT的PDF论文元数据的优化抽取[J]. 现代图书情报技术, 2007, 2(2): 18-23.
[10] 赵阳,姜爱蓉,吴建新 . 高校学位论文全文数据库建设实践-----以清华大学图书馆为例[J]. 现代图书情报技术, 2006, 1(5): 6-9.
[11] 李明伍,方丽萍 . TIFF图像文件转换为PDF文件的实现*[J]. 现代图书情报技术, 2006, 1(3): 89-91.
[12] 宋艳娟,张文德. 基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005, 21(9): 10-13.
[13] 杜树军. 用PDF制作可以用于光盘发布的电子出版物[J]. 现代图书情报技术, 2002, 18(4): 89-90.
[14] 王永成. 自动编制文献摘要及知识的自动提取[J]. 现代图书情报技术, 1993, 9(3): 13-13.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn