Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (12): 48-53     https://doi.org/10.11925/infotech.1003-3513.2008.12.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于新型主题信息量化方法的Web主题信息提取研究*
吕聚旺 都云程1,2   王弘蔚1,2   施水才1,2
1(北京信息科技大学中文信息处理研究中心 北京 100101)
2(北京拓尔思信息技术股份有限公司 北京 100101)
The Study of Topic Information Extraction from Web Pages Based on A New Method of Topic Information Calculation
Lv Juwang 1  Du Yuncheng 1,2   Wang Hongwei 1,2   Shi Shuicai 1,2
1(Chinese Information Processing Research Center, Beijing Information Science & Technology University, Beijing 100101,China)
2(Beijing TRS Information Technology Co.Ltd, Beijing 100101,China )
全文: PDF (611 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
施水才
王弘蔚
吕聚旺
都云程
关键词 网页主题信息信息抽取信息块语义信息IB-DOM树    
Abstract

 Aiming at the problem that the extration of topic information from Web page is not precise enough,this paper presents a new method of calculating the topic information of Web pages,which dividing the topic information of Web pages into three forms and using different quantization method for each. Based on the ideas above,the authors combine document object model with section thinking and present the IB-DOM model.Based on the idea of divide-and-conquer, first find the region which contains the topic information, then the irrelevant information is filtered out. The experimental results show that this approach can solve the contradiction between integrity and accuracy existing in the field of automatic extraction of topical information from Web pages betterly.

Key wordsTopic information of Web page    Information extraction    Information block    Semantic information    IB-DOM tree
收稿日期: 2008-09-24      出版日期: 2008-12-25
: 

TP391

 
基金资助:

*本文系国家863计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)、国家自然科学基金项目“基于语义的中文文本聚类研究”(项目编号:60772081)和北京市属市管高校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一。

通讯作者: 吕聚旺     E-mail: lv.juwang@trs.com.cn
作者简介: 吕聚旺,都云程,王弘蔚,施水才
引用本文:   
吕聚旺,都云程,王弘蔚,施水才. 基于新型主题信息量化方法的Web主题信息提取研究*[J]. 现代图书情报技术, 2008, 24(12): 48-53.
Lv Juwang,Du Yuncheng,Wang Hongwei,Shi Shuicai. The Study of Topic Information Extraction from Web Pages Based on A New Method of Topic Information Calculation. New Technology of Library and Information Service, 2008, 24(12): 48-53.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.12.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I12/48

[1] Lin S H, Ho J M. Discovering Informative Content Blocks from Web Documents[ C] . In:Proceedings of the 8th ACM SIGKDD International Conference,2002.
[2] 孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.
[3] 王琦,唐世渭,杨冬青,等.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10): 182-188.
[4] 胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9,103.
[5] 范莉娅,肖田元.从HTML表格自动构建局部本体方法的研究[J].计算机集成制造系统,2007,13(9): 1780-1786.

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[3] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[4] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[5] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[6] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[7] 刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
[8] 李湘东, 霍亚勇, 黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术, 2014, 30(4): 71-77.
[9] 刘雅静, 王衍喜, 郝丹, 周津慧. 机构知识库支撑科研服务方法研究[J]. 现代图书情报技术, 2014, 30(3): 1-7.
[10] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[11] 张晗, 刘双梅. 中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J]. 现代图书情报技术, 2013, (6): 30-35.
[12] 黄勋, 游宏梁, 于洋. 关系抽取技术研究综述[J]. 现代图书情报技术, 2013, 29(11): 30-39.
[13] 何琳, 何娟, 沈耕宇, 杨波, 黄水清. 一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J]. 现代图书情报技术, 2012, 28(7): 109-114.
[14] 高强, 游宏梁. 基于层叠模型的国防领域命名实体识别研究[J]. 现代图书情报技术, 2012, (11): 47-52.
[15] 王秀艳, 崔雷. 应用关键动词抽取生物医学实体间语义关系研究综述[J]. 现代图书情报技术, 2011, 27(9): 21-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn