机构知识库 (Institutional Repository, IR) 不仅是机构管理学术资源、传播学术成果和提供知识服务的重要机制, 也日益成为支持数字科研、教育和管理的重要工具, 其与其他资源、服务和流程的交互不断扩大和深化。因此, 理解IR的互操作需求及支持互操作的标准规范, 对于构建丰富、健壮和持续发展的IR服务至关重要。
当前, IR的服务场景不断扩展[ 1], 形成多元化的互操作视角。
(1) 知识管理视角:从机构知识管理角度看待IR, 支持机构知识成果的存缴、保存、传播和评价, 目前多数IR主要服务于知识管理, 管理对象包括论文、报告、图书, 并逐步扩大到数据和其他非文本资源, 例如高能物理学领域预印本服务系统arXiv.org[ 2]、英国南安普顿大学EPrints Soton[ 3]、哈佛大学机构库DASH[4]、斯坦福大学机构资源库SDR[ 5]等。为了支持机构的知识管理, 机构需要建立流畅的内容载入、传播管理、使用统计与评价链条, 并提高存缴、传播和评价效率。因此, IR需要尽可能地从出版或文摘索引或其他内容系统下载元数据或全文数据, 有
效管理内容的开放获取, 支持内容的广泛可检索性, 提供内容使用统计并保证其可广泛使用, 支持对科研成果开放获取程度和使用程度的评价等。
(2) 知识服务视角:从知识服务角度看待IR, 不断加强对内容的结构化语义化组织, 不断扩展其内容与其他服务的动态关联, 成为一个活的知识服务平台。例如, 美国PubMed Central不仅提供被引文献和施引文献、关键词析出与扩展、生物实体析出与关联、与第三方服务关联等[ 6], 还逐步提供论文文本的语义化处理, 将论文转变为支持知识探索的动态界面[ 7]。欧洲粒子物理中心的INSPIRE系统[ 8]也对存储内容进行语义化增强处理, 提供基于词表的主题词扩展、引文关联、引用数据、合作分析、作者作品目录及其引用统计等。中国科学院的IR也普遍提供基于内容的学术履历自动构建, 逐步提供机构或实验室知识地图构建、科研成果影响力分析等服务, 支持基于IR构建个人知识管理和知识网络服务[ 9]。这时, IR与知识组织工具 (词表、知识本体等) 、引文索引系统、Altmetrics工具[ 10]、各类知识平台等的互操作成为需要关注的重要问题。
(3) 科研与教育视角:IR越来越多地被认为是机构或领域数字知识创造与传播流程中的有机环节。2006年, Lyon[ 11]就提出, IR是由传感网络、智能实验装置、实验室知识库、公共数据知识库、领域知识库、出版、搜索引擎、专业信息汇集服务商、领域社交网络和开放科研网络等共同构成的学术知识基础环境的有机部分。2010年, Cramer[ 12]提出“独立的机构知识库已死亡” (Institutional Repository is Dead) , 要求从机构、领域或区域的整体数字信息资源与服务环境的角度来认识IR。在Open Repositories 2013会议上, Horstmann[ 13]更提出, 要把研究作为IR的核心, 让IR“消失在科研流程中” (Invisible Repositories) 。例如, 德国马普学会eScidoc知识库对科研各阶段产出对象进行语义标记与管理, 以对象 (Item) 、对象集合 (Container) 及环境 (Context) 的综合管理为科研人员构建知识空间[ 14]。这种视角强调IR在内容和流程上与科研过程各个环节的对象、工具和管理机制的互操作, 协同支持科研工作流。
多元化视角对IR互操作的要求逐步深化, 欧盟的DRIVER[ 15]和OpenAIRE[ 16]都提出了参考指南。考虑到互操作的复杂环境, 笔者认为应注意以下原则:
(1) 综合互操作原则:应考虑互操作可能涉及的多重问题层次, 包含技术互操作、语义互操作和管理互操作。例如, 语义互操作支持对内容描述及其使用管理措施的语义一致性或可映射性, 而管理互操作支持对内容及流程乃至IR本身的管理及可靠性的共同理解和支持。
(2) 多元利益者原则:应考虑可能涉及的多方主体对互操作的要求, 包括IR管理者、作者、作者机构、资助机构、研究社群、出版社和第三方利用者。不同利益方间的合作对于提高IR存缴、传播、评价和管理的效率很重要, 而这又需要技术、语义和管理层面的互操作支持。
因此, 综合分析各类服务需求, 至少有以下层次的互操作要求:
(1) 关于内容存缴与组织的互操作规范, 包括在不同内容系统之间批量论文推送格式, 也包括机构知识库表征和提供内容、作者、机构等的数据格式、元数据、元数据收割与检索协议等。
(2) 关于内容及其使用审计的互操作规范, 包括对论文存缴、受资助情况、开放获取性质与权限、存储与开放过程、使用统计等的规范描述, 并以规范元数据方式支持对这些数据的获取与分析, 支持各方对论文获取与使用的分析审计。
(3) 关于内容深度组织和融汇的互操作规范, 包括对IR内容检索的开放接口, 对内容组织体系 (学科、部门、地域等) 的规范描述, 对内容的关联数据化, 对内容动态组织结果 (如聚类图谱、引用网络、合著网络、影响力分布等) 的规范描述, 以及对跨IR内容的组织描述, 支持与第三方内容系统 (文摘索引、关联数据集、其他知识库等) 的关联融汇, 支持对内容组织的分析和可视化。
(4) 关于开放数据应用的互操作规范。在开放环境中, 应支持第三方应用调用IR中的元数据、内容数据、内容组织数据 (例如知识图谱及其内容集) , 需要采用“开放数据”领域的机制分析其互操作需要, 包括权益描述、内容格式描述、使用及其控制描述、调用接口描述等, 支持按照可描述和可管理的规则支持开放数据应用, 从而促进IR对科研或教育或管理流程的广泛支持。
(5) 关于机构知识库管理的互操作规范。在复杂和动态变化环境中, 需要可靠地发现IR及其内容与服务, 需要确认IR内容及管理的可靠性等, 需要提供规范的IR登记系统、IR描述元数据、IR可靠性认证等。
针对内容存缴与利用的互操作需要, 国际机构知识库联盟 (COAR) 提出了机构知识库技术互操作路线图[ 17], 其中最为基础的部分规范如表1所示:
互操作基础规范
![]() | 表1 根据COAR互操作路线图的机构知识库 |
多数“基础性”IR中, 内容对象主要是内容文档, 例如Word、PDF、HTML/XML文档或主流的音频视频文档。在专门领域的知识库中, 例如arXiv.org, 还允许LaTeX、AMSTeX、PDFLaTex、PostScript等文档类型。在这些IR中, 数字对象标识常采用基本的具有简单结构的URL, 保证在本IR中对象的唯一性, 例如arXiv.org对象标识号由arXiv:YYMM.NNNNvV组成[ 18], 其中YYNN代表年份和月份, NNNN代表顺序号, V代表版本号, 例如arXiv:0706.0123v2。目前, 越来越多的IR支持在论文发表后加载出版社DOI号。
多数IR支持Dublin Core元数据描述内容对象, 有些还支持专门领域元数据格式或基于Dublin Core扩展的本地元数据集。多数IR支持OAI-PMH元数据收割协议[ 19], 通过标准的OAI-PMH指令集 (Identify, ListSets, ListMetadataFormats, GetRecord, ListIdentifier和ListRecord) 支持第三方系统查找和调用元数据, 并通过元数据中的URL调用内容对象。
多数IR采用本地标识系统来标识存缴作者, 尚没有严格的内容对象作者标识体系。最近几年提出了若干作者唯一标识号, 比较著名的包括汤姆逊-路透公司的ResearcherID[ 20]、Scopus系统的Scopus Author ID[ 21]、基于RePEc知识库的AuthorClaim[ 22], 以及现在由众多图书馆和出版社提出的ORCID[ 23]。IR对规范的作者标识符的支持 (作为存缴者或内容对象作者) 成为互操作的重要需求。
SWORD协议[ 24]支持向IR批量存缴论文, 可用于作者或出版社向IR以及IR之间推送批量内容对象。SWORD建立在Atom Publishing Protocol基础上, 能够向指定的一个或多个IR或IR Collection推送指定的包含多个文件的资源集, 能够接受直接存缴或代理存缴的资源集。多种IR平台已支持SWORD的应用。
随着IR发展, 人们针对基础互操作规范不断完善或扩展, 例如:
(1) 元数据规范:英国RIOXX项目提出了英国开放获取知识库元数据指南[ 25], 在Dublin Core核心元数据上, 增加了rioxxterms.projectid和rioxxterms.funder两个核心元素, 前者完整使用资助机构资助项目号, 后者从RIOXX项目资助机构名称表中选用规范机构名称, 不仅支持IR间准确检索和数据融汇, 还支持资助机构发现和调用受资助项目的开放获取论文。英国ePrint内容类型描述语言更进一步对dc:type元素使用的学术作品类型进行规范描述[ 26], 欧盟Knowledge Exchange项目探索将IR内容元数据与科研管理系统元数据有机结合[ 27]。
(2) 知识组织与检索规范:IR可利用简单知识组织体系语言SKOS[ 28]描述并呈现IR内容组织体系, 可采用知识本体语言OWL[ 29]或更为简朴的Schema.org[ 30]来描述并呈现内容对象复杂关系, 可用Topic Maps[ 31]及其Topic+Occurrence +Association三元关系来标识知识组织体系与对应内容对象的标引组织关系, 可以通过SPARQL[ 32]语言检索基于RDF的复杂内容。随着IR与其他系统的知识融汇需求加强, 会更多采用规范方式来描述、呈现知识组织体系及其组织结果。
(3) 交换内容推送规范:英国JISC的Repository Junction Broker (R J Broker)[ 33]项目提供了内容推送中间件服务, 支持多个出版社和多个IR间的多对多推送存缴服务。它作为一个交换中心, 从各个出版社接受需要存储的论文, 解析其目标知识库和元数据, 并将这些论文分发到目标IR中。
(4) 交换内容封装规范:为了支持不同系统间准确解析内容数据, 美国国家信息标准化组织NISO发布了期刊文章标注元素集 (Journal Article Tag Suite, JATS)[ 34], 通过一系列XML Tags, 规范描述期刊及文章各个元素内容。2013年, NISO进一步提出关于期刊论文附加资料描述的推荐实践指南[ 35], 最近还启动了期刊数据交换数据包的推荐实践指南研究[ 36], 专门支持在图书馆、档案馆、文摘索引系统、出版社、内容集成商等之间以数据文档方式交换和自动处理期刊内容。
(5) 复杂对象描述规范:IR往往需要保存和组织包含多个多类子对象的复杂数字对象, 为此人们提出复合对象格式。例如FOXML[ 37], 包含多个内嵌的或外部关联的对象 (Data-stream) , 每个对象可有相对独立的描述元数据和版本控制, 每个对象还可与相应的运行机制 (Disseminators) 关联来支持对它的操作。METS[ 38]也是针对复合对象的描述语言, 子对象可以内嵌其中, 也可通过URI从外部链接, 并能通过不同的Structural Maps和Structural Links对子对象组进行多元化组织, 通过Behaviors对子对象进行动态处理。MPEG-21/DIDL[ 39]是多媒体领域提出的复合对象描述标准, 可包含多种媒介对象、多种组合方式和多种调用机制。FOXML还提供基于METS和基于MPEG-21/DIDL的扩展版。OAI联盟又提出OAI-ORE[ 40], 定义了一种集成对象 (Aggregation Object) , 在一系列Resource Maps的支持下, 对所集成的资源及其关系进行定义和解析, 支持跨IR的对象组织。进而, OAI联盟还提出OAI-RSF[ 41], 通过Resource List、Change List、Resource Dump和Change Dump的交换来支持不同IR间的内容动态更新。
可靠的IR互操作还涉及管理政策和管理流程, 包括对开放获取政策、内容使用许可、内容使用统计等的规范描述及调用, 甚至包括对IR本身的规范描述, 以支持第三方可靠了解和利用IR内容。人们在这方面已经开始了多种努力:
(1) 政策描述:无论是资助机构的开放获取政策还是出版社关于开放出版或自存储的政策, 往往都涉及复杂问题[ 42]。为了帮助人们查询和比较, 英国SHERPA项目建立了SHERPA/JULIET登记系统[ 43]对资助机构开放获取政策进行概略描述, 建立了SHERPA/RoMEO登记系统[ 44]对出版社版权与自存储政策进行分类描述。该项目还建立了FACT[ 45], 融汇SHERPA/JULIET和SHERPA/RoMEO的数据, 允许作者通过期刊或资助机构名称, 查询某个期刊是否和如何遵循资助机构的开放获取政策。
(2) 开放状态描述:英国V4OA[ 46]项目致力于建立一套规范元数据语言, 描述开放获取状态、开放时滞期、使用授权等, 支持IR和第三方系统准确了解IR内容的可获取状态。类似的项目还有美国NISO的开放获取元数据和指标集项目 (NISO OA Metadata and Indicators)[ 47], 试图提供关于开放状态与使用许可的规范描述。另外, ONIX-PL项目[ 48]建立了一个复杂的基于XML的使用许可描述格式, 可用于描述出版物的开放获取状态及使用许可。前述RIOXX项目元数据中, 也已建议在rights元素使用Creative Commons许可名称来描述IR内容的使用许可, 其扩展版本希望能对论文开放获取状态、开放时滞期等进行描述。
(3) 使用统计描述:无论是作者、作者机构还是资助机构, 都希望了解IR内容的使用情况, 出版社希望获得论文在IR中的下载统计, 科研管理者希望利用IR使用统计评价项目成果, IR使用统计数据的共享成为迫切需要。为此, 英国支持Publisher & Institutional Repository Usage Statistics项目[ 49], 研究利用COUNTER指标[ 50]统计IR内容使用情况[ 51]。此后, 英国启动IRUS-UK项目[ 52], 致力于建立一套规范、可比较的测度指标, 支持IR内容使用和影响的可靠评价。此外, 欧盟的Knowledge Exchange项目也提出了关于使用统计的指南[ 53]。
(4) 开放应用规范:当IR逐步成为数字科研与教育的有机环节时, IR内容就应该作为开放数据, 支持计算机化的再利用和再创造。开放数据本身在使用许可、数据格式、支持机制等方面对IR提出了更高要求, 例如作为开放数据[ 54], IR内容 (元数据或内容对象) 需要得到开放使用授权, 需要把非结构内容 (文档、图像、音视频等) 结构化数据化可计算化 (例如将文本XML化) , 需要采用公共标准数据格式, 需要对数据使用进行合理的监测或管理, 可能需要将元数据以开放关联数据方式发布[ 55], 需要专门的数据共享协议[ 56] (例如Data Sharing Protocol) 并提供开放API支持第三方系统调用。
(5) IR描述与认证:IR作为人们越来越依赖的知识内容平台, 其内容可信赖性和运行可靠性是一个迅速凸显的挑战[ 57]。虽然已有诸如OAR[ 58]和ROAR[ 59]这样的IR登记系统, 但目前对IR可信赖性的测度和评价还处在初级阶段, 而且对此的要求会随着IR的扩展应用而不断深化。人们已经提出可用档案系统描述标准[ 60]和TRAC标准[ 61]来描述和认证IR, 也可采用欧盟已经提出的IR描述应用协议 (Info-eu-repo Application Profile)[ 62]来对IR各层次内容进行规范描述。
前面对IR当前的互操作规范进行了初步总结, 但是IR发展突飞猛进, 对互操作不断提出新挑战。一方面, 大量的非文本内容 (数据、图像、音视频、计算机计算模型、多媒体对象等) 越来越成为机构知识管理与服务的重点, 规范描述、组织和利用它们成为IR的重要任务[ 63]; 一方面, 需要对IR内容进行更加深入的解析、描述和关联, 包括对科研人员、项目、机构、资助组织、工具、方法、材料、流程、结果等的标识[ 64]; 另一方面, IR网络迅速涌现, 例如OpenAIRE[ 65]、 UK Repository Net+[ 66]、CAS IR Grid[ 67]等, 这些网络不仅需要元数据收割检索和使用数据汇总等服务, 而且需要在不同类型知识库间进行数据交换和服务融汇, 进行跨IR的知识图谱分析、合作网络绘制、虚拟IR集重组、虚拟知识内建构、关联数据服务等; 再一方面, IR及其内容集本身可作为一个对象被再利用和再创造, 要求IR支持用户 (或用户系统) 对其元数据、使用协议、数据模型、组织管理流程等的重新定义或扩展, 构建新的对象或工具或流程, 支持用户从不同的视角来利用IR内容及其服务来创建新内容和新服务, 支持开放共享社交媒体。例如ResearchDataBox (RDBox) , 以开放格式支持任何人上载出版物、项目、会议及其他资源, 提供工具支持创建个人和机构的配置文件, 生成基于项目或团体合作的主题区[ 68]。这些以及未来的新需求, 将促进IR不断发展, 也对IR互操作提出了新的挑战, 需要紧密跟踪、研究和试验。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|
[51] |
|
[52] |
|
[53] |
|
[54] |
|
[55] |
|
[56] |
|
[57] |
|
[58] |
|
[59] |
|
[60] |
|
[61] |
|
[62] |
|
[63] |
|
[64] |
|
[65] |
|
[66] |
|
[67] |
|
[68] |
|