Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (9): 10-13     https://doi.org/10.11925/infotech.1003-3513.2005.09.03
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
基于XML的PDF文档信息抽取系统的研究*
宋艳娟1   张文德2
1(福州大学数学与计算机科学学院 福州 350002)
2(福州大学图书馆 福州 350002)
Research on PDF Documents Information Extraction System  Based on XML
Song Yanjuan  Zhang Wende2
1(College of Mathematics and Computer Science, Fuzhou Uninversity, Fuzhou 350002,China)
2(Library of Fuzhou Uninversity, Fuzhou 350002, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 信息抽取PDFXML    
Abstract

The article is structured as follows. Firstly, we try to design a DTD of articles of science and technology. Secondly, we analyze the structure of PDF documents. Based on that, we dwell on the design of a PDF information extraction system,  which use the above-mentioned DTD as a template, transfer a PDF-formatted scientific and technological article to a valid XML document.

Key wordsInformation Extraction    PDF    XML
收稿日期: 2005-05-23      出版日期: 2005-09-25
: 

TP392

 
基金资助:

*本项目是福建省高等学校科技项目(JA04164)的研究成果之一。

通讯作者: 张文德     E-mail: zhangwd @ fzu.edu.cn
作者简介: 宋艳娟,张文德
引用本文:   
宋艳娟,张文德. 基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005, 21(9): 10-13.
Song Yanjuan,Zhang Wende. Research on PDF Documents Information Extraction System  Based on XML. New Technology of Library and Information Service, 2005, 21(9): 10-13.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.09.03      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I9/10

1 Adobe Systems Inc..PDF Reference , Adobe Portable Document Format version 1.4_.3nd ,2001. http://www.adobe.com/support/downloads/product.jsp?product=44&platform=Windows(Accessed Mar.8,2005)
2 Extensible Markup Language 1.0 Second Edition. http://www.w3.org/TR/REC-xml,2000-10(Accessed Mar.8, 2005)
3 Simple DocBook. http://www.docbook.org/xml/simple/1.1CR2/  (Accessed Mar.8, 2005)
4 杨道良等.面向对象的中文PDF阅读器的设计与实现.计算机应用,1999,19(6): 1-4
5 Introduction to XML ,Java, databases and the web Nazmul Idris 1999/06/24  http://www.developerlife.com (Accessed Mar.8, 2005)
6 Norbert Fuhr. XML Information Retrieal and Information Extraction. http://ls6-www.informatik.uni-dortmund.debibfulltext/ir/Fuhr:02a.pd,2002 (Accessed Mar.8, 2005)
7 余锦凤等.中文信息处理基础教程. 北京:北京大学出版社,2002
8 李辉,史忠植等.运用文本领域的常识改善基于支撑向量机的文本分类器性能.中文信息学报, 2002,16(2):7-13
9 Ekkuitte Rusty Harold 著,杜大鹏等译. XML实用大全.北京:中国水利水电出版社,2001

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[3] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[4] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[5] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[6] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[7] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[8] 刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
[9] 李湘东, 霍亚勇, 黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术, 2014, 30(4): 71-77.
[10] 刘雅静, 王衍喜, 郝丹, 周津慧. 机构知识库支撑科研服务方法研究[J]. 现代图书情报技术, 2014, 30(3): 1-7.
[11] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[12] 张晗, 刘双梅. 中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J]. 现代图书情报技术, 2013, (6): 30-35.
[13] 胡振宁, 杨巍, 丁培, 林伟明, 吴元业. SULCMIS OPAC多语言界面的设计与实现[J]. 现代图书情报技术, 2013, 29(2): 70-76.
[14] 黄勋, 游宏梁, 于洋. 关系抽取技术研究综述[J]. 现代图书情报技术, 2013, 29(11): 30-39.
[15] 王丽伟, 牟冬梅, 王伟. NCBO领域本体映射项目及应用[J]. 现代图书情报技术, 2013, 29(10): 15-19.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn