Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (6): 26-29     https://doi.org/10.11925/infotech.1003-3513.2005.06.08
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
Web上基于特定主题的RG-HITS算法研究
丁一
(湖北师范学院计算机科学与技术系 黄石 435000)
on the Specific Topic on Web
Ding Yi
(Department of Computer Science and Technology, Hubei Normal University, Huangshi 435000, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 知识发现网页搜索相似度计算信息检索    
Abstract

Information Retrieval (IR) on the Web is the automatic retrieval of all relevant documents, the same as resource finding of intended Web documents, while the same time retrieves as few of the non-relevant as possible. Web IR has become very popular and favorite at present. It concentrates on the using traditional text IR methods in the Internet, as well as the properties of Web graph. This research focuses on how to effectively and broadly get relevant Web pages and contents, filter Web pages and assign proper labels for them. Accurate finding user-specific information in the Web is very difficult. And traditional Web search engines take a query as input and produce a set of (hopefully) relevant pages that match the query terms. While useful in many circumstances, search engines have the disadvantage that users have to formulate queries that specify their information need, which is prone to errors. Based on the discussion of Page Rank, HITS and similarity between Web texts, some new algorithms called RG-HITS (Resemblance Graph-HITS) for finding relevant documents on the Web are introduced.

Key wordsWeb mining    Web search    Similarity scoring    Information retrieval
收稿日期: 2005-02-08      出版日期: 2005-06-25
: 

TP311

 
通讯作者: 丁一     E-mail: a_carrie@sina.com
作者简介: 丁一
引用本文:   
丁一. Web上基于特定主题的RG-HITS算法研究[J]. 现代图书情报技术, 2005, 21(6): 26-29.
Ding Yi. on the Specific Topic on Web. New Technology of Library and Information Service, 2005, 21(6): 26-29.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.06.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I6/26

1Filippo Menczer, Gautam Pant, Padmini Srinivasan, et al. Evaluating Topic-Driven Web Crawlers. 21st ACM International Conference on Research and Development in Information Retrieval .New Orleans,Lonisiana,USA.2002:241-249
2T. Hofmann. The cluster-abstraction model: Unsupervised learning of topic hierarchies from text data. Proceedings of 16th International Joint Conference on Artificial Intelligence (IJCAI'99). Stockholm, Sweden. 1999:682-687
3Kleinberg M.Authoritative Sources in a Hyperlinked Eveironment.Journal of the ACM,1999,46(5):604-632
4U. Y. Nahm and R. J. Mooney. Ua mutually beneficial integration of data mining and information extraction. Proceedings of the 17th National Conference on Artificial Intelligence (AAAI '00). AAAI Press, 2000:627-632
5叶允明,马范援,于水等. Igloo分布式爬虫系统的性能优化. 李晓明,李星主编. 搜索引擎与Web挖掘进展. 北京:高等教育出版社,2003:1-8

[1] 韩辉, 刘秀文. 海事适任评估中主观题自动评分技术研究*[J]. 数据分析与知识发现, 2021, 5(8): 113-121.
[2] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[3] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[4] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[5] 代冰,胡正银. 基于文献的知识发现新近研究综述 *[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[6] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[7] 胡正银,刘蕾蕾,代冰,覃筱楚. 基于领域知识图谱的生命医学学科知识发现探析*[J]. 数据分析与知识发现, 2020, 4(11): 1-14.
[8] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[9] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[10] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[11] 吴菊华,王煜,黎明,蔡少云. 基于加权知识网络的在线健康社区用户知识发现*[J]. 数据分析与知识发现, 2019, 3(2): 108-117.
[12] 杨磊,王子润,侯贵生. 基于Q-LDA主题模型的网络健康社区主题挖掘研究 *[J]. 数据分析与知识发现, 2019, 3(11): 52-59.
[13] 胡吉颖,谢靖,钱力,付常雷. 基于知识图谱的科技大数据知识发现平台建设*[J]. 数据分析与知识发现, 2019, 3(1): 55-62.
[14] 孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[15] 王欣, 冯文刚. 在线极端主义和激进化监测技术综述*[J]. 数据分析与知识发现, 2018, 2(10): 2-8.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn