基于熵的新闻网页抽取方法的研究

doi:10.11925/infotech.1003-3513.2007.04.12

现代图书情报技术

2007, Vol. 2

Issue (4): 48-51 https://doi.org/10.11925/infotech.1003-3513.2007.04.12

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

基于熵的新闻网页抽取方法的研究

朱红灿龙朝阳

（湘潭大学管理学院湘潭 411105）

An Entropy-Based Approach for News Article Extraction from Web Page

Zhu Hongcan Long Zhaoyang

(Management School of Xiangtan University, Xiangtan 411105, China)

摘要
参考文献
相关文章
Metrics

全文: PDF (573 KB)
输出: BibTeX | EndNote (RIS)

摘要

为了减少或根除新闻网站中大量非主题信息的干扰，提出一种新闻网页抽取方法，采用基于熵的计算和DOM树的知识，从新闻网页中抽取主题文档和相关链接。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	龙朝阳
	朱红灿

关键词 ：熵, 信息抽取, 信息块, DOM

Abstract：

In this paper,an approach for news article extraction from Web page is proposed and this approach applies information theory to DOM tree. Experiment on several news Web sites shows that it is practical.

Key words： Entropy Information extraction Informative block DOM

收稿日期: 2007-02-05 出版日期: 2007-04-25

TP181

通讯作者: 朱红灿 E-mail: zhuhongcan@xtu.edu.cn

作者简介: 朱红灿,龙朝阳

引用本文:

朱红灿,龙朝阳 . 基于熵的新闻网页抽取方法的研究[J]. 现代图书情报技术, 2007, 2(4): 48-51.
Zhu Hongcan,Long Zhaoyang . An Entropy-Based Approach for News Article Extraction from Web Page. New Technology of Library and Information Service, 2007, 2(4): 48-51.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.04.12 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I4/48

1Kao H Y，Ho J M,Chen M SWISDOM:Web Intrap age Informative Structure Mining Based on Document Object Model.IEEE Tansactions on Knowledge and Data Engineering:2005,17(5):614-630
2瞿有利,于浩,徐国伟等.Web页面信息块的自动分割. 中文信息学报,2004,18(1):6-13
3孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究.中文信息学报,2004,18(5):17-22
4张敏,高剑峰,马少平. 基于链接描述文本及其上下文的Ｗｅｂ信息检索.计算机研究与发展，2004,41(1):221-226

[1]	谭荧, 唐亦非. 基于指代消解的引文内容抽取研究^*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2]	朱侯,方清燕. 社会化媒体用户隐私计算量化模型构建及隐私悖论均衡解验证*[J]. 数据分析与知识发现, 2021, 5(7): 111-125.
[3]	陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究^*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[4]	侯剑华,刘盼. 专利技术系统演化的技术熵测度模型与实证研究 ^*[J]. 数据分析与知识发现, 2019, 3(8): 21-29.
[5]	温彦,马立健,曾庆田,郭文艳. 基于地理信息偏好修正和社交关系偏好隐式分析的POI推荐 ^*[J]. 数据分析与知识发现, 2019, 3(8): 30-39.
[6]	刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取^*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[7]	章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 ^*[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[8]	牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究^*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[9]	毕达天, 王福. 移动图书馆信息接受熵及其仿真研究^*[J]. 数据分析与知识发现, 2018, 2(7): 101-111.
[10]	吴江, 贺超城, 龚正. 基于加权有向网络熵的2017 NBA总决赛球队去中心化水平与绩效研究[J]. 数据分析与知识发现, 2018, 2(2): 37-45.
[11]	贾晓婷, 王名扬, 曹宇. 结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究^*[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[12]	王忠义, 张鹤铭, 黄京, 李春雅. 基于社会网络分析的网络问答社区知识传播研究[J]. 数据分析与知识发现, 2018, 2(11): 80-94.
[13]	侯剑华, 郭爽. *基于专利的技术熵分析法及其在新兴技术监测中的应用研究^——以碳捕集技术为例**[J]. 数据分析与知识发现, 2017, 1(1): 55-63.
[14]	段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究^*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[15]	刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.

Viewed

Full text

Abstract

Cited

Shared

Discussed