Advanced Search
  首页 > 行业动态
Hiberlink项目试图解决学术论文中30%的超链接失效问题

Hiberlink项目试图解决学术论文中30%的超链接失效问题

    一个由信息科学家组成的国际研究小组于近日开始了一项为期两年的研究,试图解决学术文献中的网络链接失效问题。项目名为Hiberlink,由美国Los Alamos国家实验室和英国爱丁堡大学组成的研究小组将评估超链接的失效程度。项目由美国Andrew W. Mellon基金会资助,资助额度为500 000美金,由EDINA进行协调,EDINA是JISC指定的英国国家数据中心,位于爱丁堡大学,为全英国的高校提供服务。

    “越来越多的学术论文包含网络链接,例如,项目介绍、示范文档、软件等。但是,大家都知道,网页会变化,会消失。”美国Los Alamos国家实验室首席研究员Herbert Van de Sompel说:“目前,还没有能够保障这些页面的存档技术设施,因此,要想在文章发表之后再重新访问这些页面经常是不可能的。结果,学术记录就被破坏了。”

    越来越多的基于Web的学术页面包含了指向在科研活动过程中所创建或是所需要的资源,包括软件、数据集、网站、演示文档、博客、视频、科学工作流、本体,等等。这些资源通常是随着时间的推移不断变化,不像传统的学术文章。每当原始版本的链接资源不再可访问时,引用失效问题就会发生。

    引用失效问题一般有两种情况:第一种情况是指向资源的HTTP链接不再起作用,第二种情况是链接所指向的内容不断变化甚至可能与原先被引用时完全不同。因此,当研究人员重新访问在线学术成果,检查链接资源时,原有的在线信息可能已经变化甚至不复存在。

    Hiberlink项目建立在美国Los Alamos国家实验室所进行的一项初步研究的基础之上,该实验室通过其“网络时间旅行”技术发现所测试的400 000份arXiv.org论文中接近30%的HTTP链接是失效的,剩余70%中,又有65%的链接指向的资源是未存档的,也就是说,可能某一天就会消失。

    Hiberlink项目将使用爱丁堡大学信息学院语言技术研究小组的文本挖掘和信息抽取工具来测量大量的学术出版物,试图弄清什么样的链接仍然有效,什么样的网络内容有存档。该项目的终极目标是为链接失效问题找出切实可行的解决方案,并开发能够集成在出版过程中的方法。项目负责人计划与学术出版商及其他基于网络的出版物合作,确保网络资源能得到更有效的保存,进而确保学术内容的可持续访问。

(编译自:http://www.librarytechnology.org/ltg-displaytext.pl?RC=18193)

发布时间: 2013-09-27   浏览: 403
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn