Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 25 Issue (12): 52-56     https://doi.org/10.11925/infotech.1003-3513.2009.12.10
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于特征定位边界预测的Web档案正文采集*
沈劲枝寇文波田晨耕3
1(华中师范大学信息管理系  武汉 430079)
2(武汉大学软件学院   武汉 430072)
3(武汉大学数学与统计学院  武汉 430072)
Web Archive Content Extracted on Feature Orienting and Boarder Forecasting
Shen Jinzhi1   Kou Wenbo2   Tian Chengeng3
1(Department of Information and Management,Huazhong Normal University,Wuhan 430079,China)
2(International School of Software, Wuhan University,Wuhan 430072,China)
3(School of Mathematics and Statistics, Wuhan University, Wuhan 430072,China)
全文: PDF (473 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

 提出基于特征定位边界预测的Web主题型页面的采集方法,以达到高速抽取互联网档案有效内容的目的。开发ROST CM、ROST TextExtractor两个软件工具构建训练集并进行测试。理论和实验表明,本算法适用于中文简体、繁体、英文网页,能够很好地适应新闻以及博客类Web档案的管理方式。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
沈劲枝
寇文波
田晨耕
沈阳
关键词  Web档案档案采集正文抽取信息抽取网页分析    
Abstract

This paper raises a method of Web pages extracting which is based on feature orienting boarder forecast for extracting the Web archive effective content in high-speed. Two tools named ROST CM and ROST Text Extractor, is developed to build the training data set and test the algorithm. Theory and experiment show that the algorithm is suitable for Simplified Chinese, Traditional Chinese and English Web pages,and can be well adapted to news and blog Web archive management.

Key wordsWeb archive    Archive curator    Content extract    Information extract    Webpage analysis
收稿日期: 2009-11-17      出版日期: 2009-12-25
ZTFLH: 

TP393

 
基金资助:

*本文系国家自科青年基金项目“反剽窃实现下的相似信息传播动力学”(项目编号:60803080)和教育部人文社会科学研究青年项目“反剽窃理论与技术研究”(项目编号:08JC870010) 的研究成果之一。

通讯作者: 沈劲枝     E-mail: 1047469889@qq.com
作者简介: 沈劲枝,寇文波,田晨耕
引用本文:   
沈劲枝,寇文波,田晨耕. 基于特征定位边界预测的Web档案正文采集*[J]. 现代图书情报技术, 2009, 25(12): 52-56.
Shen Jinzhi,Kou Wenbo,Tian Chengeng. Web Archive Content Extracted on Feature Orienting and Boarder Forecasting. New Technology of Library and Information Service, 2009, 25(12): 52-56.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.12.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I12/52

[1] Koehler W. An Analysis of  Web Page and Web Site Constancy and Permanence[J]. Journal of the American Society for Information Science,1999, 50(2): 162-180.
 [2] Grieser G,  Jantke K P,  Lange S, et al. A Unifying Approach to HTML Wrapper Representation and Learning[C]. In: Proceedings of the 3rd International Conference on Discovery Science. London, UK: Springer-Verlag,2000:50-64.
 [3] Kushmerick N. Wrapper Verification[J]. World Wide Web Journal, 2000, 3(2): 79-94.
 [4] Gupta S, Kaiser G, Stolfo S. Extracting Context to Improve Accuracy for HTML Content Extraction[C]. In: Proceedings of Special Iinterest Tracks and Posters of the 14th International Conference on World Wide Web,Chiba, Japan. New York, USA :ACM  Press,2005: 1114 - 1115.
 [5] The Wayback Machine: The Web’s Archive[EB/OL].[2009-07-11].http://www.archive.org/web/web.php.
 [6] Kosala R. Web Mining Research: A Survey[J]. ACM SIGKDD Explorations,2000, 2(1): 1-15.
 [7] 李蕾,王劲林,白鹤,等. 基于FFT的网页正文提取算法研究与实现[J]. 计算机工程与应用,2007, 43(30): 148-151.
 [8] 赵欣欣,索红光,刘玉树. 基于标记窗的网页正文信息提取方法[J]. 计算机应用研究,2007, 24(3): 144-145.
 [9] 胡国平,张巍,王仁华. 基于双层决策的新闻网页正文精确抽取[J]. 中文信息学报, 2006, 20 (6): 1-10.
[10]Yushke Shinyama.WebStemmer[EB/OL].[2009-08 03].http://www.unixuser.org/~euske/python/webstemmer/index.html.
[11] Cai D,Yu S P, Wen J R. VIPS:A Vision Based Page Segmentation Algorithm[R]. Microsoft Corporation,2003.

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[3] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[4] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[5] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[6] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[7] 刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
[8] 李湘东, 霍亚勇, 黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术, 2014, 30(4): 71-77.
[9] 刘雅静, 王衍喜, 郝丹, 周津慧. 机构知识库支撑科研服务方法研究[J]. 现代图书情报技术, 2014, 30(3): 1-7.
[10] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[11] 张晗, 刘双梅. 中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J]. 现代图书情报技术, 2013, (6): 30-35.
[12] 黄勋, 游宏梁, 于洋. 关系抽取技术研究综述[J]. 现代图书情报技术, 2013, 29(11): 30-39.
[13] 何琳, 何娟, 沈耕宇, 杨波, 黄水清. 一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J]. 现代图书情报技术, 2012, 28(7): 109-114.
[14] 高强, 游宏梁. 基于层叠模型的国防领域命名实体识别研究[J]. 现代图书情报技术, 2012, (11): 47-52.
[15] 王秀艳, 崔雷. 应用关键动词抽取生物医学实体间语义关系研究综述[J]. 现代图书情报技术, 2011, 27(9): 21-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn