Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (5): 41-45     https://doi.org/10.11925/infotech.1003-3513.2005.05.10
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
基于页面内容和链接结构的超链接主题预测算法
刘红   邵晓良   胡吉兵
(解放军第二军医大学网络信息中心 上海 200433)
The Algorithm of Forecasting URL-Topic Based on Web Structure  and Web Page Contents
Liu Hong   Shao Xiaoliang   Hu Jibing
(The Network Information Center of  Second Military Medical University, Shanghai  200433, China)
全文: PDF (0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 Web结构超链接主题预测算法    
Abstract

This paper introduces primarily a core Algorithm of Web topic information gathering system that we designed——the Forecast URL-Topic Algorithm. It bases on the related theories, analyzes the experiment data and discovers the topic of the hyperlink be decided by three factors primarily: the topic Similarity of the parent Web page, the topic Similarity of the (ex-)anchor text and the structure characteristic of Web graph, then puts forward the algorithm of Forecasting URL-Topic based on Web structure and Web page contents, the system evaluation result shows that the algorithm has great efficiency.

Key wordsWeb structure    Hyperlink    Topic    Forecast    Algorithm
收稿日期: 2004-12-31      出版日期: 2005-05-25
ZTFLH: 

TP391

 
通讯作者: 刘红     E-mail: llhhyybb@163.com
作者简介: 刘红,邵晓良,胡吉兵
引用本文:   
刘红,邵晓良,胡吉兵. 基于页面内容和链接结构的超链接主题预测算法[J]. 现代图书情报技术, 2005, 21(5): 41-45.
Liu Hong,Shao Xiaoliang,Hu Jibing. The Algorithm of Forecasting URL-Topic Based on Web Structure  and Web Page Contents. New Technology of Library and Information Service, 2005, 21(5): 41-45.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.05.10      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I5/41

1Jon M. KleinbergAuthoritative Sources in a Hyperlinked EnvironmentTarjan RE, Baecker T, eds. Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms. New Orleans: ACM Press, 1997:668-677
2Andrei Broder, Ravi Kumar, Farzin Maghoul etcGraph structure in the Web: Experiments and models.9th World Wide Web Conference, 2000
3Charu C. Aggarwal, Fatima Al-Garawi and Philip S. YuIntelligent Crawling on the World Wide Web with Arbitrary Predicates".WWW10, May 2-5, 2001, Hong Kong ACM 1-58113-348-0/01/0005
4Andrei Broder, Ravi Kumar, Farzin Maghoul etcGraph structure in the Web: Experiments and models. In 9th World Wide Web Conference, 2000
5Golub GH, Van Loan CFMatrix Computations, London, Johns Hopkins University Press, 1989:40-45
6Jon Kleinberg and Steve LawrenceThe Structure of the WebS C I E N C E'S COMPA S S, www.sciencemag.org, SCIENCE VOL 294 30 NOVEMBER 2001
7李培,赵麟网上证券金融信息采集系统的研究现代图书情报技术2001(6):56-59
8李勇,桑艳艳网络文本数据分类技术与实现算法情报学报,2002(1):21-26
9李盛韬,余智华,程学旗,白硕Web信息采集研究进展计算机科学,2003(2):151-157,171
10王晓宇,周傲英万维网的链接结构分析及其应用综述软件学报,2003,14(10):1768-1780
11刘红利用扩展锚点文本来分类网页计算机应用研究,2004,21(3):112-113,124
12刘红在军训网中构建基于Web的主题信息采集系统硕士毕业论文,2004(7)

[1] 刘倩, 李晨亮. 基于社交媒体的话题演变研究综述*[J]. 数据分析与知识发现, 2020, 4(8): 1-14.
[2] 李纲, 管为栋, 马亚雪, 毛进. 学术论文的社交媒体可见性预测研究*[J]. 数据分析与知识发现, 2020, 4(8): 63-74.
[3] 盛嘉祺, 许鑫. 融合主题相似度与合著网络的学者标签扩展方法研究*[J]. 数据分析与知识发现, 2020, 4(8): 75-85.
[4] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[5] 王建冬,于施洋. 构建国家经济大脑的实践探索与初步设想 *[J]. 数据分析与知识发现, 2020, 4(7): 2-17.
[6] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[7] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[8] 岳丽欣,刘自强,胡正银. 面向趋势预测的热点主题演化分析方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 22-34.
[9] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[10] 刘萍,彭小芳. 基于形式概念分析的词汇相似度计算*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
[11] 魏国辉,张丰聪,付先军,王振国. 中药成分相似性量化建模及寒热药性预测分析*[J]. 数据分析与知识发现, 2020, 4(5): 75-83.
[12] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[13] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[14] 李文政,顾益军,闫红丽. 基于网络贝叶斯信息准则算法的社区数量预测研究*[J]. 数据分析与知识发现, 2020, 4(4): 72-82.
[15] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn