Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (9): 76-79     https://doi.org/10.11925/infotech.1003-3513.2005.09.17
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
网络信息抽取技术及其在TBT预警中的应用*
翟东升   余旸   李莉
(北京工业大学经济与管理学院 北京 100022)
The Technology of Web Information Extraction and Its Application in the TBT Early-Warning System
Zhai Dongsheng   Yu Yang   Li Li
(The Economics and Management School, Beijing University of Technology, Beijing 100022,China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

研究了一种能够实现对数据型网页中信息实施实时采集的信息技术。该技术能够智能识别表格结构,自动分离数据项,在对数据项的分析判断过程中,采用从单词上分类(By Words)和从表格排列方式(By Structure)划分相结合的方法,以Ontology思想为支撑,融合支持向量机算法(SVM)和隐马尔可夫模型(HMM)等一系列成熟模型。最后通过测试并将该技术应用于TBT预警信息动态采集子系统中,收到良好效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 本体信息抽取TBT    
Abstract

This paper researches into an information technology, which could real-timely extract the interested information from data-type Web pages. The technology we employ could intelligently identify table structures, and automatically separate different kinds of data. In the process of analyzing and classifying data, it adopts the combination of sorting by words and dividing by table structure, which depends on the idea of ontology and aggregates a series of mature models, such as SVM and HMM. The technology, which has passed the test, is applied into a dynamic information gathering system of a TBT early-warning system and does a good work.

Key wordsOntology    Information extraction    TBT
收稿日期: 2005-06-08      出版日期: 2005-09-25
: 

TP274.2

 
基金资助:

*基金项目:北京市自然科学基金资助项目(9042001); 国家社科基金资助项目(04BJY061)。

通讯作者: 余旸     E-mail: bgdyuyang@emails.bjut.edu.cn
作者简介: 翟东升,余旸,李莉
引用本文:   
翟东升,余旸,李莉. 网络信息抽取技术及其在TBT预警中的应用*[J]. 现代图书情报技术, 2005, 21(9): 76-79.
Zhai Dongsheng,Yu Yang,Li Li. The Technology of Web Information Extraction and Its Application in the TBT Early-Warning System. New Technology of Library and Information Service, 2005, 21(9): 76-79.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.09.17      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I9/76

1周明建,高济等.基于本体论的Web信息抽取.计算机辅助设计与图形学学报,2004.16(4)
2Xiaoying Gao,Mengjie Zhang and Peter Andreae. Learning Information Extraction Patterns from Tabular Web Pages without Manual Labeling. Proceedings of the IEEE/WIC International Conference on Web Intelligence (WI'03) 3Kumi ITAI, Atsuhiro TAKASU and Jun ADACHI. Information Extraction from HTML Pages and its Integration. Proceedings of the 2003 Symposium on Applications and the Internet Workshops (SAINT-w'03)
4张志刚,陈静等.一种HTML网页净化方法.情报学报,2004, 23(4):387-393
5周源远,王继成等.Web页面清洗技术的研究与实现.计算机工程,2002.28(9):48-50

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[3] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
[4] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[5] 强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 *[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[6] 邓诗琦,洪亮. 面向智能应用的领域本体构建研究*——以反电话诈骗领域为例[J]. 数据分析与知识发现, 2019, 3(7): 73-84.
[7] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[8] 高广尚. 用户画像构建方法研究综述*[J]. 数据分析与知识发现, 2019, 3(3): 25-35.
[9] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[10] 王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[11] 何有世, 何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[12] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[13] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[14] 庞贝贝, 苟娟琼, 穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[15] 丁晟春, 刘梦露, 傅柱. 概念设计中基于知识流的多维设计知识统一建模技术研究*[J]. 数据分析与知识发现, 2018, 2(2): 11-19.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn