一种通用HTML网页主题信息提取方法*

doi:10.11925/infotech.1003-3513.2007.01.10

现代图书情报技术

2007, Vol. 2

Issue (1): 40-43 https://doi.org/10.11925/infotech.1003-3513.2007.01.10

20届机检会论文选登

本期目录 | 过刊浏览 | 高级检索

一种通用HTML网页主题信息提取方法*

许文都云程李渝勤施水才

（北京信息科技大学中文信息处理研究中心北京 100101）

A General Approach to Extracting Topical Information in HTML Pages

Xu Wen Du Yuncheng Li Yuqin Shi Shuicai

（Chinese Information Processing Research Center，Beijing InformationScience & Technology University，Beijing 100101，China）

摘要
参考文献
相关文章
Metrics

全文: PDF (706 KB)
输出: BibTeX | EndNote (RIS)

摘要

采用DOM规范，把HTML网页表示成树结构，对不同模板的HTML页面“主题”信息提取进行研究和分析，提出一种新的结点主题相关性判定方法，依据此方法判定出要抽取的主题内容，并删除无关内容，结果输出只含主题信息的HTML文档。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	施水才
	李渝勤
	许文
	都云程

关键词 ： DOM, 信息提取, 分块, 相关度

Abstract：

By researching how to extract the topical contents in different kinds of templates of Web pages, this paper introduces a new extraction methodology based on DOM. The approach transforms HTML documents into DOM trees. According to the method, the topical contents are extracted and topic-unrelated content are deleted. The result of the approach represents the HTML document which only contains the topic information.

Key words： DOM Information extraction Partition Correlativity

收稿日期: 2006-10-09 出版日期: 2007-01-25

TP391

基金资助:

*本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号：60272084)；北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号：KZ200310772013)；北京市教委项目“中文垃圾邮件过滤和追踪技术研究”(项目编号：KM200510772008)和“数字内容的安全身份认证与版权保护技术研究”(项目编号：KM200610772008)的研究成果之一。

通讯作者: 许文 E-mail: xu.wen@trs.com.cn

作者简介: 许文,都云程,李渝勤,施水才

引用本文:

许文,都云程,李渝勤,施水才 . 一种通用HTML网页主题信息提取方法*[J]. 现代图书情报技术, 2007, 2(1): 40-43.
Xu Wen,Du Yuncheng,Li Yuqin,Shi Shuicai . A General Approach to Extracting Topical Information in HTML Pages. New Technology of Library and Information Service, 2007, 2(1): 40-43.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.01.10 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I1/40

1Michael W Berry, Murray Browne. Understand Search Engines：Mathematical Modeling and Text Retrieval.Philadelphia:Society for Industrial and Applied Mathematics,1999.116
2Buyukkokten O,Garcia2Molina H,Paepcke A. Accordion summarization for end-game browsing on PDAs and cellular phones.In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York:ACM Press, 2001.213-220
3Yi L, Liu B, Li X.Eliminating Noisy Information in Web Pages for Data Mining.http://www.cs.uic.edu/~liub/publications/kdd2003-WebNoise.pdf(Accessed Oct.17,2005)
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法清华大学学报(自然科学版), 2005,45（1）: 1743-1747
5Suhit Gupta, Gail Kaiser, David Neistadt, Peter Grimm, “DOM-based Content Extraction of HTML Documents”, 12th International World Wide Web Conference, 2003(5): 207-214
6孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究中文信息学报,2004(4):17-22
7Stenback J, Hegaret P L, Hors A L. Document Object Model (DOM ) Level 2 HTML Specification.http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html#html-ID-1176245063,2003(Accessed Oct.17,2005)
8CyberNeko HTML Parser. http://www.apache.org/～andyc/neko/ doc/ html/ index.html(Accessed Oct.17,2005)

[1]	王毅,沈喆,姚毅凡,成颖. 领域事件图谱构建方法综述^*[J]. 数据分析与知识发现, 2020, 4(10): 1-13.
[2]	刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取^*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[3]	朱玲,薛春香,章成志,傅柱. 微博用户标签与博文内容相关度研究^*[J]. 现代图书情报技术, 2016, 32(3): 18-24.
[4]	任海英, 于立婷. 一种基于维基百科的多策略词义消歧方法[J]. 现代图书情报技术, 2015, 31(11): 18-25.
[5]	姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[6]	郝世博, 朱学芳. 面向图博档的分块压缩感知图像零水印算法[J]. 现代图书情报技术, 2014, 30(6): 87-93.
[7]	杨志墨, 刘怀亮, 赵辉. 一种基于复杂网络的中文文本表示算法[J]. 现代图书情报技术, 2014, 30(11): 38-44.
[8]	朱毅华, 张超群, 曾通, 吴龙凤, 徐玛丽, 王东波, 李晓晖. 基于子树相似度计算的网页评论提取算法研究[J]. 现代图书情报技术, 2013, 29(11): 52-59.
[9]	沈耕宇, 黄水清, 王东波. 以作者合作共现为源数据的科研团队发掘方法研究[J]. 现代图书情报技术, 2013, 29(1): 57-62.
[10]	刘萍, 陈烨. 词汇相似度研究进展综述[J]. 现代图书情报技术, 2012, 28(7): 82-89.
[11]	景璟, 洪颖, 蒋媛媛, 杲晓锋. 基于相关反馈的Web检索提问融合研究[J]. 现代图书情报技术, 2011, 27(1): 57-62.
[12]	王庆恒马自卫李高虎. 统一检索服务关键技术的研究与实现[J]. 现代图书情报技术, 2010, 26(4): 18-23.
[13]	崔宇红. 机构知识库自动存储系统研究[J]. 现代图书情报技术, 2010, 26(12): 76-80.
[14]	方宏,吕太之. 求职网站职位列表页链接信息的自动提取[J]. 现代图书情报技术, 2009, 25(7-8): 93-96.
[15]	段寿建,杨朝凤,甘健侯. 基于领域本体的概念语义相似度和相关度综合量化研究*[J]. 现代图书情报技术, 2009, 25(11): 40-43.

Viewed

Full text

Abstract

Cited

Shared

Discussed