基于XSLT的PDF论文元数据的优化抽取

doi:10.11925/infotech.1003-3513.2007.02.04

现代图书情报技术

2007, Vol. 2

Issue (2): 18-23 https://doi.org/10.11925/infotech.1003-3513.2007.02.04

数字图书馆

本期目录 | 过刊浏览 | 高级检索

基于XSLT的PDF论文元数据的优化抽取

陈俊林张文德

(福州大学图书馆福州 350002)

Optimizing Extraction of Science Documents’ Metadata in PDF Format Based on XSLT

Chen Junlin Zhang Wende

(Library of Fuzhou Uninversity, Fuzhou 350002, China)

摘要
参考文献
相关文章
Metrics

全文: PDF (1213 KB)
输出: BibTeX | EndNote (RIS)

摘要

简述PDF信息抽取过程中采用的转换工具及抽取语言，简析PDFTOHTML格式转换后的中间文档，分析PDF科技论文首页元数据存在的问题，给出对以上问题的解决方案。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	张文德
	陈俊林

关键词 ： PDF, PDF to HTML, XSLT, 元数据

Abstract：

This paper firstly introduces a format transforming tool and XSLT which is the language used to produce extraction rules, then simply analyses the middle documents generated from PDF to HTML. Thirdly, discusses the problem of metadata existed in the science documents in PDF format, finally gives the methods to solve this problem.

Key words： PDF PDF to HTML XSLT Metadata

收稿日期: 2006-11-10 出版日期: 2007-02-25

TP311.13

通讯作者: 陈俊林 E-mail: bluesea_cc@163.com

作者简介: 陈俊林,张文德

引用本文:

陈俊林,张文德 . 基于XSLT的PDF论文元数据的优化抽取[J]. 现代图书情报技术, 2007, 2(2): 18-23.
Chen Junlin,Zhang Wende . Optimizing Extraction of Science Documents’ Metadata in PDF Format Based on XSLT. New Technology of Library and Information Service, 2007, 2(2): 18-23.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.02.04 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I2/18

1Portable Document Format.http://www.adobe.com/products/acrobat/adobepdf.html(Accessed Nov.5,2006)
2Extensible Markup Language(XML).http://www.w3.org/XML/(Accessed Nov.5,2006)
3Advanced PDF to HTML.http://www.intrapdf.com/(Accessed Nov.5,2006)
4PDF2HTML v2.0. http://www.verypdf.com/pdf2htm/index.html(Accessed Nov.5,2006)
5PDF Converter. http://www.e-pdfconverter.com/(Accessed Nov.5,2006)
6PDFConv. http://www.bumpnetworks.com/(Accessed Nov.5,2006)
7PDF2HTML.http://sourceforge.net/projects/pdftohtml(Accessed Nov.5,2006)
8eXtensible Stylesheet Language:transformation.http://www.w3.org/TR/xslt(Accessed Nov.5,2006)

[1]	张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究^*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[2]	李旭晖,于滔,李婷,李逸文,顾进广. 一种面向演化的模式元数据描述机制*[J]. 数据分析与知识发现, 2020, 4(1): 76-88.
[3]	张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究^*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[4]	姜霖, 王东波. 引文元数据的自动发现和标注方法研究——以外文引文为例[J]. 数据分析与知识发现, 2017, 1(1): 47-54.
[5]	于倩倩,张建勇. NSTL集成利用第三方来源元数据的实践与探索^*[J]. 现代图书情报技术, 2016, 32(1): 97-102.
[6]	刘峰, 张晓林. 科学数据元数据标准述评及其通用化设计研究[J]. 现代图书情报技术, 2015, 31(12): 3-12.
[7]	王辉, Michael Witt, 窦天芳. 普渡大学研究仓储及其支持的科学数据管理服务[J]. 现代图书情报技术, 2015, 31(1): 9-16.
[8]	谭学清, 何珊. 音乐个性化推荐系统研究综述[J]. 现代图书情报技术, 2014, 30(9): 22-32.
[9]	李宇, 王威. PDF过量下载监测的设计与原型实现[J]. 现代图书情报技术, 2011, 27(4): 71-76.
[10]	程妍妍. 国际电子文件元数据封装方法VEO和METS的比较研究[J]. 现代图书情报技术, 2011, 27(10): 7-11.
[11]	周静, 赵英, 杨欣. 基于CWM的ETL元数据库系统模型的设计[J]. 现代图书情报技术, 2011, 27(1): 88-93.
[12]	沈芸芸, 肖珑, 冯英. 元数据应用规范研究[J]. 现代图书情报技术, 2010, 26(12): 1-8.
[13]	张春红, 唐勇, 邵珂. 图像资源数字加工标准及其应用[J]. 现代图书情报技术, 2010, 26(12): 9-14.
[14]	周玉陶, 范国银. 学位论文OAI-METS元数据生成的实现[J]. 现代图书情报技术, 2010, 26(10): 91-94.
[15]	韩莹,祝忠明. 数字对象情境元数据研究及应用进展[J]. 现代图书情报技术, 2009, 25(6): 24-30.

Viewed

Full text

Abstract

Cited

Shared

Discussed