基于本体和DOM相结合的Web信息抽取器

doi:10.11925/infotech.1003-3513.2009.05.09

现代图书情报技术

2009, Vol. 25

Issue (5): 44-49 https://doi.org/10.11925/infotech.1003-3513.2009.05.09

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

基于本体和DOM相结合的Web信息抽取器

柳佳刚陈山贺令亚

（湖南工学院计算机科学系衡阳 421002）

A Web Information Extractor Based on the Combination of Ontology and DOM

Liu Jiagang Chen Shan He Lingya

(Department of Computer Science,Hunan Institute of Technology,Hengyang 421002,China)

摘要
参考文献
相关文章
Metrics

全文: PDF (570 KB)
输出: BibTeX | EndNote (RIS)

摘要

针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点，设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域，降低页面噪声，实现对Web页面的预处理。实验表明，改进后的抽取方法提高了Web信息的抽准率。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	柳佳刚
	陈山
	贺令亚

关键词 ：信息抽取, 包装器, 本体, 文档对象模型, 归纳学习

Abstract：

In terms of the weakness that information extraction based on information item Ontology of Web page can not partition accurately the areas of extraction, an improved Web information extractor based on Ontology and DOM is designed. This paper utilizes the DOM tree to design an inductive learning algorithm for the path of information items in sample Web pages. Through this algorithm, the areas of information extraction can be partitioned accurately, the noises of sample Web page can be reduced, and the preprocessing of the Web page can be implemented. The experiment shows that the improved approach can increase the precision of information extraction.

Key words： Information extraction Wrapper Ontology DOM Inductive learning

收稿日期: 2009-03-23 出版日期: 2009-05-25

TP391.3

通讯作者: 柳佳刚 E-mail: superljg@tom.com

作者简介: 柳佳刚,陈山,贺令亚

引用本文:

柳佳刚,陈山,贺令亚. 基于本体和DOM相结合的Web信息抽取器[J]. 现代图书情报技术, 2009, 25(5): 44-49.
Liu Jiagang,Chen Shan,He Lingya. A Web Information Extractor Based on the Combination of Ontology and DOM. New Technology of Library and Information Service, 2009, 25(5): 44-49.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.05.09 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I5/44

［1］许建潮,侯锟. Web信息的自主抽取方法［J］. 计算机工程与应用, 2005,41(14):185-189.
［2］ Silvescu A, Reinoso-Castillo J, Honavar V. Ontology-driven Information Extraction and Knowledge Acquisition from Heterogeneous, Distributed Biological Data Sources［C/OL］. In:Proccedings of the LJCAI-2001 Workshop on Knowledge Discovery from Heterogeneous, Distributed, Autonomous, Dynamic Data and Knowledge Sources, 2001.［2008-11-01］. http://www.cs.iastate.edu/~honavar/Papers/ijcaiworkshop-paper.pdf.
［3］ Maedche A, Neumann G, Staab S. Bootstrapping an Ontology-based Information Extraction System［A］//Intelligent Exploration of the Web, Studies in Fuzziness and Soft-Computing［C］. Heidelberg:Physica-Verlag Gmb H, 2003:345-359.
［4］ Staab S, Madche A, Handschuh S. An Annotation Framework for the Semantic Web［C］. In:Proceedings of the First International Workshop on Multi-Media Annotation, Tokyo, Japan, January 30-31, 2001.
［5］王放,顾宁,吴国文. 基于本体的Web表格信息抽取［J］. 小型微型计算机系统, 2003,24(12):2142-2146.
［6］张成洪,王向安,古晓洪. 利用Ontology和规则表达式的Web信息抽取［J］. 计算机工程, 2004,30(5):58-60.
［7］何召卫,陈俊亮. 基于本体关系匹配的信息抽取［J］. 计算机工程, 2007,33(21):207-209.
［8］高军,王腾蛟,杨冬青等. 基于Ontology的Web内容二阶段半自动提取方法［J］. 计算机学报, 2004,27(3):310-318.
［9］刘耀,穗志方. 领域Ontology概念描述体系构建方法探析［J］. 大学图书馆学报, 2006,24(5):28-33.
［10］徐静,孙坦,黄飞燕. 近两年国外本体应用研究进展［J］. 图书馆建设, 2008, (8):84-90.
［11］周明健,高济,李飞. 基于本体论的Web信息抽取［J］. 计算机辅助设计与图形学学报, 2004,16(4):535-541.
［12］刘辉,陈静玉,徐学洲. 基于模板流程配置的Web信息抽取［J］. 计算机工程, 2008,34(20):55-57.
［13］支宗良,陈少飞. 一种基于XQuery的优化Web信息抽取方法［J］. 计算机应用, 2008,28(1):152-154.
［14］冀高峰,汤庸,道炜等. 基于XML的自动学习Web信息抽取［J］. 计算机科学, 2008,35(3):87-90.
［15］杨敬伟,杨文柱,高悦. 基于DOM的Web信息抽取规则的构造与实现［J］. 河北大学学报(自然科学版), 2007,27(2):209-212.
［16］于琨,蔡智,糜仲春等. 基于路径学习的信息自动抽取方法［J］. 小型微型计算机系统, 2003,24(12):2147-2149.

[1]	谭荧, 唐亦非. 基于指代消解的引文内容抽取研究^*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2]	盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[3]	曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究^*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
[4]	陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究^*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[5]	强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 ^*[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[6]	邓诗琦,洪亮. *面向智能应用的领域本体构建研究^——以反电话诈骗领域为例**[J]. 数据分析与知识发现, 2019, 3(7): 73-84.
[7]	刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取^*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[8]	高广尚. 用户画像构建方法研究综述^*[J]. 数据分析与知识发现, 2019, 3(3): 25-35.
[9]	章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 ^*[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[10]	王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究^*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[11]	何有世, 何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘^*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[12]	牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究^*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[13]	唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究^*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[14]	庞贝贝, 苟娟琼, 穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究^*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[15]	丁晟春, 刘梦露, 傅柱. 概念设计中基于知识流的多维设计知识统一建模技术研究^*[J]. 数据分析与知识发现, 2018, 2(2): 11-19.

Viewed

Full text

Abstract

Cited

Shared

Discussed