Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (3): 51-54     https://doi.org/10.11925/infotech.1003-3513.2008.03.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
一种基于内容规则的网页去噪算法*
王建冬1,2 王继民1 田飞佳1
1(北京大学信息管理系 北京 100871)
2(连云港师范高等专科学校图书馆 连云港 222000)
An Algorithm for Noise Reduction in Web Pages Based on a Group of Content-related Rules
Wang Jiandong1,2  Wang Jimin1  Tian Feijia1
1(Department of Information Management, Peking University,  Beijing 100871,China)
2(Lianyungang Teacher’s College Library, Lianyungang 222000,China)
全文: PDF (441 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王建冬
王继民
田飞佳
关键词 网页净化编辑距离    
Abstract

This paper presents a new algorithm for the Elimination of Noise in Web Pages Based on a Group of Content-related rules. First, we present an algorithm which can peel off noises by iteratively comparing the tables on the same level of the page’s table tree. Next, we present an algorithm in order to evaluate anchor text’s topic similarity to the content of the page. To some extent, as the new algorithm takes semantic facts of the pages into consideration, it acquires a even higher accuracy than pure rule-based algorithms, and requires a fairly low time complexity. The experiment indicates that this algorithm performs very effectively when purifying great mass of web pages.

Key wordsNoise Reduction in Web Pages    Levenshtein Distance
收稿日期: 2007-11-27      出版日期: 2008-03-25
: 

TP18

 
基金资助:

*本文系国家科技支撑计划课题基金项目“知识组织系统的集成及服务体系研究与实现”(项目编号:2006BAH03B03-01)的研究成果之一。

 

通讯作者: 王建冬     E-mail: ZS.Wagner@yahoo.com.cn
作者简介: 王建冬,王继民,田飞佳
引用本文:   
王建冬,王继民,田飞佳. 一种基于内容规则的网页去噪算法*[J]. 现代图书情报技术, 2008, 24(3): 51-54.
Wang Jiandong,Wang Jimin,Tian Feijia. An Algorithm for Noise Reduction in Web Pages Based on a Group of Content-related Rules. New Technology of Library and Information Service, 2008, 24(3): 51-54.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.03.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I3/51

[1] 张志刚,陈静,李晓明. 一种HTML网页净化方法[J]. 情报学报,2004,23(4):387-393.
[2] 时达明,林鸿飞,杨志豪. 基于网页框架和规则的网页噪音去除方法[C]. 第三届学生计算语言学研讨会. 沈阳.2006.
[3] 荆涛,左万利. 基于可视布局信息的网页噪音去除算法[J]. 华南理工大学学报:自然科学版,2004,32(21):84-87.
[4] 封化民,刘飚,刘艳敏,等. 含有位置坐标树的Web页面分析和内容提取框架[J]. 清华大学学报,2005,45(S1):1767-1771.
[5] 孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究[J]. 中文信息学报,2004,18(5):17-22.
[6] 欧健文,董守斌,蔡斌. 模板化网页主题信息的提取方法[J]. 清华大学学报,2005,45(S1):1743-1747.
[7] Lin S-H,Ho J-M. Discovering Informative Content Blocks from Web Documents [C]. In:Proceedings of the ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining (SIGKDD’02). 2002.
[8] Cai D, Yu S, Wen J R, et al. VIPS: A Vision Based Page Segmentation Algorithm[J]. Microsoft Technical Report(MSR-TR-2003-79), 2003:24.
[9] CWT200g说明[EB/OL]. ( 2006-04-12). [2007-12-17]. http://www.cwirf.org/SharedRes/DataSet/CWT200g /CWT200g_intro.txt.
[10] Baeza-Yates R, Ribeiro-Neto B. Modern Information Retrieval[M]. ACM press, 1999: 148.
[11] 第五届全国搜索引擎和网上信息挖掘学术研讨会[EB/OL].(2006-10-19). [2007-07-11]. http://www.hainu.edu.cn/sewm2007/.
[12] 中文自然语言处理开放平台[EB/OL] .( 2002-08-16). [2007-07-11].http://www.nlp.org.cn/ project/project.php?proj_id=6.

[1] 段建勇,关晓龙. 基于统计和特征相结合的查询纠错方法研究*[J]. 现代图书情报技术, 2016, 32(2): 34-42.
[2] 叶焕倬, 吴迪. 基于改进编辑距离的相似重复记录清理算法[J]. 现代图书情报技术, 2011, 27(7/8): 82-90.
[3] 聂卉 黄贵鹏. 树编辑距离在Web信息抽取中的应用与实现*[J]. 现代图书情报技术, 2010, 26(5): 29-34.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn