Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (4): 48-51     https://doi.org/10.11925/infotech.1003-3513.2007.04.12
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于熵的新闻网页抽取方法的研究
朱红灿 龙朝阳
(湘潭大学管理学院 湘潭 411105)
An Entropy-Based Approach for News Article Extraction from Web Page
Zhu Hongcan   Long Zhaoyang
(Management School of Xiangtan University, Xiangtan 411105, China)
全文: PDF (573 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
龙朝阳
朱红灿
关键词 信息抽取信息块DOM    
Abstract

In this paper,an approach for news article extraction from Web page is proposed and this approach applies information theory to DOM tree. Experiment on several news Web sites shows that it is practical.

Key wordsEntropy    Information extraction    Informative block    DOM
收稿日期: 2007-02-05      出版日期: 2007-04-25
: 

TP181

 
通讯作者: 朱红灿     E-mail: zhuhongcan@xtu.edu.cn
作者简介: 朱红灿,龙朝阳
引用本文:   
朱红灿,龙朝阳 . 基于熵的新闻网页抽取方法的研究[J]. 现代图书情报技术, 2007, 2(4): 48-51.
Zhu Hongcan,Long Zhaoyang . An Entropy-Based Approach for News Article Extraction from Web Page. New Technology of Library and Information Service, 2007, 2(4): 48-51.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.04.12      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I4/48

1Kao H Y,Ho J M,Chen M SWISDOM:Web Intrap age Informative Structure Mining Based on Document Object Model.IEEE Tansactions on Knowledge and Data Engineering:2005,17(5):614-630
2瞿有利,于浩,徐国伟等.Web页面信息块的自动分割. 中文信息学报,2004,18(1):6-13
3孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究.中文信息学报,2004,18(5):17-22
4张敏,高剑峰,马少平. 基于链接描述文本及其上下文的Web信息检索.计算机研究与发展,2004,41(1):221-226

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 朱侯,方清燕. 社会化媒体用户隐私计算量化模型构建及隐私悖论均衡解验证*[J]. 数据分析与知识发现, 2021, 5(7): 111-125.
[3] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[4] 侯剑华,刘盼. 专利技术系统演化的技术熵测度模型与实证研究 *[J]. 数据分析与知识发现, 2019, 3(8): 21-29.
[5] 温彦,马立健,曾庆田,郭文艳. 基于地理信息偏好修正和社交关系偏好隐式分析的POI推荐 *[J]. 数据分析与知识发现, 2019, 3(8): 30-39.
[6] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[7] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[8] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[9] 毕达天, 王福. 移动图书馆信息接受熵及其仿真研究*[J]. 数据分析与知识发现, 2018, 2(7): 101-111.
[10] 吴江, 贺超城, 龚正. 基于加权有向网络熵的2017 NBA总决赛球队去中心化水平与绩效研究[J]. 数据分析与知识发现, 2018, 2(2): 37-45.
[11] 贾晓婷, 王名扬, 曹宇. 结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究*[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[12] 王忠义, 张鹤铭, 黄京, 李春雅. 基于社会网络分析的网络问答社区知识传播研究[J]. 数据分析与知识发现, 2018, 2(11): 80-94.
[13] 侯剑华, 郭爽. 基于专利的技术熵分析法及其在新兴技术监测中的应用研究*——以碳捕集技术为例[J]. 数据分析与知识发现, 2017, 1(1): 55-63.
[14] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[15] 刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn