Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (1): 40-43     https://doi.org/10.11925/infotech.1003-3513.2007.01.10
  20届机检会论文选登 本期目录 | 过刊浏览 | 高级检索 |
一种通用HTML网页主题信息提取方法*
许文 都云程 李渝勤 施水才
(北京信息科技大学中文信息处理研究中心 北京 100101)
A General Approach to Extracting Topical Information in HTML Pages
Xu Wen   Du Yuncheng    Li Yuqin   Shi Shuicai
(Chinese Information Processing Research Center,Beijing InformationScience & Technology University,Beijing 100101,China)
全文: PDF (706 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
施水才
李渝勤
许文
都云程
关键词 DOM信息提取分块相关度    
Abstract

By researching how to extract the topical contents in different kinds of templates of Web pages, this paper introduces a new extraction methodology based on DOM. The approach transforms HTML documents into DOM trees. According to the method, the topical contents are extracted and topic-unrelated content are deleted. The result of the approach represents the HTML document which only contains the topic information.

Key wordsDOM    Information extraction    Partition    Correlativity
收稿日期: 2006-10-09      出版日期: 2007-01-25
: 

TP391

 
基金资助:

*本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号:60272084);北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号:KZ200310772013);北京市教委项目“中文垃圾邮件过滤和追踪技术研究”(项目编号:KM200510772008)和“数字内容的安全身份认证与版权保护技术研究”(项目编号:KM200610772008)的研究成果之一。

通讯作者: 许文     E-mail: xu.wen@trs.com.cn
作者简介: 许文,都云程,李渝勤,施水才
引用本文:   
许文,都云程,李渝勤,施水才 . 一种通用HTML网页主题信息提取方法*[J]. 现代图书情报技术, 2007, 2(1): 40-43.
Xu Wen,Du Yuncheng,Li Yuqin,Shi Shuicai . A General Approach to Extracting Topical Information in HTML Pages. New Technology of Library and Information Service, 2007, 2(1): 40-43.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.01.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I1/40

1Michael W Berry, Murray Browne. Understand Search Engines:Mathematical Modeling and Text Retrieval.Philadelphia:Society for Industrial and Applied Mathematics,1999.116
2Buyukkokten O,Garcia2Molina H,Paepcke A. Accordion summarization for end-game browsing on PDAs and cellular phones.In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York:ACM Press, 2001.213-220
3Yi L, Liu B,  Li X.Eliminating Noisy Information in Web Pages for Data Mining.http://www.cs.uic.edu/~liub/publications/kdd2003-WebNoise.pdf(Accessed Oct.17,2005)
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法清华大学学报(自然科学版), 2005,45(1): 1743-1747
5Suhit Gupta, Gail Kaiser, David Neistadt, Peter Grimm, “DOM-based Content Extraction of HTML Documents”, 12th International World Wide Web Conference, 2003(5): 207-214
6孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究 中文信息学报,2004(4):17-22
7Stenback J, Hegaret P L, Hors A L. Document Object Model (DOM ) Level 2 HTML Specification.http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html#html-ID-1176245063,2003(Accessed Oct.17,2005)
8CyberNeko HTML Parser. http://www.apache.org/~andyc/neko/ doc/ html/ index.html(Accessed Oct.17,2005)

[1] 王毅,沈喆,姚毅凡,成颖. 领域事件图谱构建方法综述*[J]. 数据分析与知识发现, 2020, 4(10): 1-13.
[2] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[3] 朱玲,薛春香,章成志,傅柱. 微博用户标签与博文内容相关度研究*[J]. 现代图书情报技术, 2016, 32(3): 18-24.
[4] 任海英, 于立婷. 一种基于维基百科的多策略词义消歧方法[J]. 现代图书情报技术, 2015, 31(11): 18-25.
[5] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[6] 郝世博, 朱学芳. 面向图博档的分块压缩感知图像零水印算法[J]. 现代图书情报技术, 2014, 30(6): 87-93.
[7] 杨志墨, 刘怀亮, 赵辉. 一种基于复杂网络的中文文本表示算法[J]. 现代图书情报技术, 2014, 30(11): 38-44.
[8] 朱毅华, 张超群, 曾通, 吴龙凤, 徐玛丽, 王东波, 李晓晖. 基于子树相似度计算的网页评论提取算法研究[J]. 现代图书情报技术, 2013, 29(11): 52-59.
[9] 沈耕宇, 黄水清, 王东波. 以作者合作共现为源数据的科研团队发掘方法研究[J]. 现代图书情报技术, 2013, 29(1): 57-62.
[10] 刘萍, 陈烨. 词汇相似度研究进展综述[J]. 现代图书情报技术, 2012, 28(7): 82-89.
[11] 景璟, 洪颖, 蒋媛媛, 杲晓锋. 基于相关反馈的Web检索提问融合研究[J]. 现代图书情报技术, 2011, 27(1): 57-62.
[12] 王庆恒 马自卫 李高虎. 统一检索服务关键技术的研究与实现[J]. 现代图书情报技术, 2010, 26(4): 18-23.
[13] 崔宇红. 机构知识库自动存储系统研究[J]. 现代图书情报技术, 2010, 26(12): 76-80.
[14] 方宏,吕太之. 求职网站职位列表页链接信息的自动提取[J]. 现代图书情报技术, 2009, 25(7-8): 93-96.
[15] 段寿建,杨朝凤,甘健侯. 基于领域本体的概念语义相似度和相关度综合量化研究*[J]. 现代图书情报技术, 2009, 25(11): 40-43.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn