Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (5): 41-45     https://doi.org/10.11925/infotech.1003-3513.2005.05.10
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
基于页面内容和链接结构的超链接主题预测算法
刘红   邵晓良   胡吉兵
(解放军第二军医大学网络信息中心 上海 200433)
The Algorithm of Forecasting URL-Topic Based on Web Structure  and Web Page Contents
Liu Hong   Shao Xiaoliang   Hu Jibing
(The Network Information Center of  Second Military Medical University, Shanghai  200433, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 Web结构超链接主题预测算法    
Abstract

This paper introduces primarily a core Algorithm of Web topic information gathering system that we designed——the Forecast URL-Topic Algorithm. It bases on the related theories, analyzes the experiment data and discovers the topic of the hyperlink be decided by three factors primarily: the topic Similarity of the parent Web page, the topic Similarity of the (ex-)anchor text and the structure characteristic of Web graph, then puts forward the algorithm of Forecasting URL-Topic based on Web structure and Web page contents, the system evaluation result shows that the algorithm has great efficiency.

Key wordsWeb structure    Hyperlink    Topic    Forecast    Algorithm
收稿日期: 2004-12-31      出版日期: 2005-05-25
: 

TP391

 
通讯作者: 刘红     E-mail: llhhyybb@163.com
作者简介: 刘红,邵晓良,胡吉兵
引用本文:   
刘红,邵晓良,胡吉兵. 基于页面内容和链接结构的超链接主题预测算法[J]. 现代图书情报技术, 2005, 21(5): 41-45.
Liu Hong,Shao Xiaoliang,Hu Jibing. The Algorithm of Forecasting URL-Topic Based on Web Structure  and Web Page Contents. New Technology of Library and Information Service, 2005, 21(5): 41-45.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.05.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I5/41

1Jon M. KleinbergAuthoritative Sources in a Hyperlinked EnvironmentTarjan RE, Baecker T, eds. Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms. New Orleans: ACM Press, 1997:668-677
2Andrei Broder, Ravi Kumar, Farzin Maghoul etcGraph structure in the Web: Experiments and models.9th World Wide Web Conference, 2000
3Charu C. Aggarwal, Fatima Al-Garawi and Philip S. YuIntelligent Crawling on the World Wide Web with Arbitrary Predicates".WWW10, May 2-5, 2001, Hong Kong ACM 1-58113-348-0/01/0005
4Andrei Broder, Ravi Kumar, Farzin Maghoul etcGraph structure in the Web: Experiments and models. In 9th World Wide Web Conference, 2000
5Golub GH, Van Loan CFMatrix Computations, London, Johns Hopkins University Press, 1989:40-45
6Jon Kleinberg and Steve LawrenceThe Structure of the WebS C I E N C E'S COMPA S S, www.sciencemag.org, SCIENCE VOL 294 30 NOVEMBER 2001
7李培,赵麟网上证券金融信息采集系统的研究现代图书情报技术2001(6):56-59
8李勇,桑艳艳网络文本数据分类技术与实现算法情报学报,2002(1):21-26
9李盛韬,余智华,程学旗,白硕Web信息采集研究进展计算机科学,2003(2):151-157,171
10王晓宇,周傲英万维网的链接结构分析及其应用综述软件学报,2003,14(10):1768-1780
11刘红利用扩展锚点文本来分类网页计算机应用研究,2004,21(3):112-113,124
12刘红在军训网中构建基于Web的主题信息采集系统硕士毕业论文,2004(7)

[1] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[2] 单晓红,王春稳,刘晓燕,韩晟熙,杨娟. 开放式创新社区领先用户识别——知识基础观视角*[J]. 数据分析与知识发现, 2021, 5(9): 85-96.
[3] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4] 刘渊晨, 王昊, 高亚琪. 在线音乐歌单播放量预测及影响因素分析*[J]. 数据分析与知识发现, 2021, 5(8): 100-112.
[5] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[6] 徐良辰, 郭崇慧. 基于集成学习的胃癌生存预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 86-99.
[7] 董振恒,吕学强,任维平,姜阳,李果林. 高性能区块链关键技术研究综述[J]. 数据分析与知识发现, 2021, 5(6): 14-24.
[8] 董美,常志军,张润杰. 一种面向科技文献元数据增量数据规范的多模式匹配算法*[J]. 数据分析与知识发现, 2021, 5(6): 135-144.
[9] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[10] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[11] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[12] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[13] 王楠,李海荣,谭舒孺. 基于改进SMOTE算法与集成学习的舆情反转预测研究*[J]. 数据分析与知识发现, 2021, 5(4): 37-48.
[14] 王红斌,王健雄,张亚飞,杨恒. 主题不平衡新闻文本数据集的主题识别方法研究*[J]. 数据分析与知识发现, 2021, 5(3): 109-120.
[15] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn