建立服务可扩展型机构知识库方法探索 —— 中国农业大学机构知识库构建与服务实践
李晨英, 韩明杰, 洪重阳, 王雁, 许岩青, 程春宁
中国农业大学图书馆 北京 100193
李晨英 E-mail:licy@au.edu.cn

李晨英: 提出研究思路, 设计总体研究方案, 组织具体实施, 负责论文起草与修改;
韩明杰: 提出研究命题, 审定研究方案, 论文修改;
洪重阳: 主要承担系统管理、数据整理以及数据发布视图设计等工作;
王雁, 许岩青, 程春宁: 主要承担元数据结构设计与资源加工等工作。

摘要

【目的】

针对IR建设中普遍存在的内容不足与利用效率不高的问题进行实践性方法探索。

【应用背景】

在国内外多数IR数据量少且用户服务功能不够丰富的背景下, 开展中国农业大学机构知识库(CAUIR)内容广泛收集与扩展服务建设。

【方法】

基于CAUIR的工作实践, 从IR内容建设和服务功能扩展两方面, 说明构建服务可扩展型IR的具体技术措施, 并用统计数据证明扩展IR服务功能可提高内容的利用率。

【结果】

CAUIR服务已扩展到13个专题, 形成了系列服务。6年来用户登录总量超过1 129万, 日均超过5 000。

【结论】

实践证明扩展面向普通用户的IR服务功能是提高IR内容利用效率的有效措施。

关键词: 机构知识库; 内容组织; 内容组织结构化; 内容服务; 内容发布模块化; 服务扩展
Research on Methods of Building an Expandable Institutional Repository: Constructing China Agricultural University Institutional Repository to Deliver Effective Services
Li Chenying, Han Mingjie, Hong Chongyang, Wang Yan, Xu Yanqing, Cheng Chunning
China Agricultural University Library, Beijing 100193, China
Abstract

[Objective]

Practical methods are investigated to address common problems regarding lack of contents and low utilization that Institutional Repositories (IR) are confronted with.

[Context]

Most of IRs worldwide face the challenges regarding shortage of data/contents and limited customer service functions. To tackle these issues, extensive collections of contents are added to China Agricultural University Institutional Repository (CAUIR), enabling the delivery of extended services.

[Methods]

Based on successful implementation of extensible IR at CAU, technical details are presented on content construction, and extension of service function. Usage data of CAUIR proves that extending IR services can improve utilization.

[Results]

CAUIR has been extended to thirteen topics, and provides a series of services. Over the past six years, total of user logins has been reached 11.29 million, and five thousand user logins are carried out per day on average.

[Conclusions]

Practice in the construction of CAUIR proves that expanding IR service function for ordinary users is an effective measure to increase IR utilization.

Keyword: Institutional Repository; Content organization; Structured content organization; Content services; Modular content publishing; Expansion of services
1 引 言

机构知识库(Institutional Repository, IR)是开放获取学术成果的重要窗口、已成为当今图书馆特色资源建设与服务的重要任务之一。机构政策和著作权[ 1, 2]、DSpace等开源软件[ 3, 4, 5, 6]、自存储和长期保存[ 7, 8]等政策与技术性问题在IR发展前期倍受关注。随着IR建设与服务的发展, 内容建设效率不高的瓶颈问题凸显, IR服务的界面设计和服务功能的扩展问题[ 9]也开始受到关注。

国外已有一些机构在开放获取知识库的服务功能扩展方面进行着新的探索。“Enhanced Publication”是荷兰的NARCIS(National Academic Research and Collaborations Information System)[ 10]系统中的一个栏目, 它以出版物为核心, 用资源地图的方式, 对原始学术出版物及其相关的音视频数字对象、衍生数字对象进行集中展示, 而且表现了与出版物关联的“人”、“机构”、“主题”之间的相互关系, 在服务层面上形成一个可识别的数字对象集合, 提高了数字对象的附加值, 增强了知识库的知识服务功能。美国哈佛大学的“Harvard Dataverse Network”向全世界提供开放获取的科学数据, 其中包括全球最大的社会科学数据集[ 11]。它在提供可识别并且可控制的共享数据档案功能基础上, 还提供对这些科学数据进行多样化数据分析和利用的支持。美国康奈尔大学图书馆推出的“VIVO: Cornell Research & Scholarship”[ 12]中, 采用关联数据技术组织该校师生、院系机构等的学术活动及其学术成果相关信息, 以可视化的方式展示了学者研究领域的科学地图与合作关系网络图。

我国关于IR的研究论文至少已有700多篇, 但多数为描述性研究, 应用性研究偏少, 并且实践研究多为关于DSpace软件的研究[ 13]。在IR构建整体框架设计研究方面, 主要有中国科学院联合机构知识库(CAS-IR)建设[ 14, 15, 16]提供的从建设目标、模式到推广服务等制度、方案和具体工作办法的经验分享, 以及一些高校的IR建设实践[ 17, 18]。在提高IR内容发现和利用方面, CAS-IR开展了通过提升在Google Scholar中的收录比率, 增强IR内容被发现与利用的研究[ 19], 尚未见到其他面向普通用户的扩展IR服务功能的实践探索。

2 CAUIR建设背景及其系统特点

中国农业大学机构知识库(CAUIR)构建始于2005年, 当时国内开始关注IR, 国外IR建设都处于实践性探索阶段, 可参考的IR建设案例主要基于DSpace开展, 通常IR都存在收录内容数量不足和用户访问量低下的问题。IR内容不足的主要原因是IR的内容采集都采取作者自主提交的模式, 作者参与度成为影响内容建设效率的关键因素。而IR内容不足以及IR内容与作者主页、学科知识库的冗余等因素又导致IR的利用效率低下[ 20]。再加上IR的服务仅限于提供检索和对作者、题名、时间以及社区等条目的浏览功能, 缺乏新闻模式的内容推荐服务, 用户除了自主检索之外, 很难发现IR的内容。在DSpace的Manakin版本出现之前, 基于DSpace构建的IR服务不仅功能一致, 甚至界面风格也一致[ 21], 引导用户利用IR的功能较弱。

为了提高内容建设效率, CAUIR设计初期就确定了主要由图书馆员代替作者集中采集, 之后作者确认的内容建设模式。目前集中采集已成为日本和我国IR建设普遍采用的内容建设模式。针对IR服务功能单一的问题, CAUIR选用了数据层与表现层分离、可以进行多主题发布和内容推荐的内容管理软件CDICM[ 22], 进行面向普通用户的IR服务功能拓展实践。

CAUIR系统主要特点是具有内容加工与服务两个子系统。内容加工子系统是数据层, 承担资源采集、元数据著录标引任务; 内容服务子系统是逻辑层和表现层, 承担发布主题的视图设计, 以及对资源进行选择和XML格式数据展示的任务, 系统架构如图1所示:

图1 CAUIR系统结构示意图

2007年末CAUIR上线, 除了提供一般IR都提供的内容检索和基于条目的内容浏览服务功能之外, 主要扩展了多角度的内容推荐、多层面的内容导航、以及相关元数据的自动抽取和无缝链接等功能, 主要服务功能如表1所示。CAUIR利用系统支持多主题内容发布的功能, 在提供常规IR服务功能的基础上, 增加了表现内容特色或为特定用户群体服务的特色专题, 例如: 博硕士论文专题, 嵌入到研究生院招生信息服务平台内的博硕士招生学科专业与导师介绍专题, 面向本科生的10个本机构国家级重点学科专题, 形成了CAUIR的系列服务, 从引导用户利用IR的角度拓展了IR的服务功能。

表1 CAUIR系统的主要Web服务功能
3 CAUIR的内容建设方法
3.1 资源选择分级制

CAUIR根据学术成果的认可度、发布范围以及内容管理与服务需要, 将资源分为: 核心级、扩展级、规范级与关联级4个层次, 具体资源类型与分级原则及其数据量如表2所示。核心级和扩展级两类包含了IR收录的常规资源, 其元数据和介质文件量分别占据了总量的62%和82.3%。仅占3.2%的规范级资源为不同粒度信息间的关联和表现层的元数据信息扩展奠定了基础。

表2 CAUIR资源采集对象与分级原则及其数据量
3.2 资源加工流程化

在深入分析不同类型资源的元数据以及对象数据的来源、涉及著作权[ 23]、采集技术等操作性细节问题基础上, CAUIR针对每一种资源制定了具体的采集办法, 整合了从资源采集到内容组织、数据加工、内容发布的全部工作步骤, 确定了元数据加工基本原则(能套录不原编, 能选择不录入)和工作流程, 如图2所示, 实现了IR内容的快速积累。截至2013年末, CAUIR系统收录元数据17.9万多条, 相关全文、图片等介质文件11.3万多篇/件, 用户访问频次超过1 129万。

图2 CAUIR资源加工工作流程

3.3 内容组织规范化

(1) 在遵守元数据设计基本规范[ 24]的基础上, CAUIR的资源库结构设计中尽可能对资源特征进行精细化描述与标引, 为内容服务子系统中主体与非主体资源库之间的元数据相互引用和内容关联奠定了基础。

(2) CAUIR在内容组织方案设计中, 以“人”为中心, 通过对所有类型资源标引相关学科专业与校内组织机构两种分类体系的方法, 利用系统的视图设计功能, 通过逻辑关系匹配设计, 可以将教师在教学与科研活动中产生的所有类型的学术成果信息在表现层关联起来(见图3), 使IR内容形成网状组织结构, 为实现多角度引导用户利用IR内容奠定了基础。系统日志统计结果显示, 用户利用分类导航进行的内容浏览次数远远高于用户进行自主检索的次数。

图3 CAUIR资源内容关联关系结构示意图

(3) 对元数据著录时出现的各种名称和资源特征属性进行规范。在对资源特点和用户需求进行深入分析基础上, 制定了一系列便于内容关联的名称规范和便于数据筛选的资源属性规范(见图4)。名称与属性的先行规范控制, 不仅提高了元数据编制效率, 而且为表现层实现主体与非主体资源之间的内容关联和元数据信息扩展提供了基本保障, 并且有利于今后的元数据深度利用。

图4 CAUIR元数据著录标引中的 名称属性规范内容

4 CAUIR的服务扩展
4.1 扩展多个内容发布专题

CAUIR系统的数据层与表现层分离, 可以通过视图设计随时扩展发布主题。每个主题都是一个独立的内容发布单元, 主题设计与实现过程如图5所示。目前, CAUIR的服务在提供本校教师学术成果利用的“教师文库”基础上, 逐步扩展了12个专题, 为IR的内容利用提供了多个入口。为了吸引用户, 每个专题都采用推荐重点内容, 相关信息无缝链接, 补充关联级信息等措施进一步丰富了专题内容。

图5 CAUIR服务主题设计与实现技术流程

4.2 扩展表现层的详细元数据信息

CAUIR系统通过发布视图中独特的主体和非主体资源库、资源库内相关数据的自动匹配、以及不同粒度资源的内容链接等关系设计, 可以在表现层扩展主体资源库的元数据信息, 进行页面内容的灵活组织和相互引用。即在一个详细元数据显示页面中动态提取和组合多个资源库的相关元数据内容, 将与主体资源的元数据内容密切相关的、非主体资源库的部分元数据元素内容集成在同一元数据详细显示页面中, 同时提供所有相关元数据的无缝链接。CAUIR系统中的教师学术履历就是采用扩展详细元数据信息方法形成, 如表3所示。多个资源库元数据元素的集成化显示, 不仅调用IR系统内的相关资源极大地丰富了元数据内容, 大幅度降低了元数据著录工作量, 而且进一步促进了IR的内容利用。

表3 CAUIR教师学术履历发布内容及其内容来源、显示和数据链接关系
4.3 扩展服务效果

根据系统日志统计, 2008年-2013年登录用户人次已达到1 129.9万, 2012年用户登录人次最多, 其次是2009年, 用户登录的高峰月由2008年11月前移至2013年1月, 如图6所示。2013年系统登录人次最少, 原因是屏蔽了一些干扰系统运行速度的爬虫类IP。

图6 CAUIR系统用户登录人次月报(2008-2013)

对用户利用资源的行为进行分析发现, 教师信息、研究生学科专业信息一直受到用户的高度关注和利用, 如图7所示。特别是将IR的服务拓展嵌入到本校研究生招生信息服务平台后, 2009年度登录人次陡升至268.4万, 比2008年度的126.5万增加142万人次。2009年度各个资源库访问频次平均同比增长93.5%, 原本利用率较高的中文学术论文和博硕士学位论文等学术成果的利用率再次得到提升。仅有5 000条数据的教师信息库访问频次高达301.5万人次, 仅次于拥有最多数据量的中文学术论文库的访问频次总量。值得一提的是, 随着研究生培养质量要求的提高, 2013年SCI/EI收录论文的利用频次逆势增长, 可见资源利用情况也受到社会环境的影响。

图7 CAUIR系统主要资源库年度访问量趋势图 (2008-2013)

5 结 语

用户需求不是随着IR的构建自然产生, 它需要IR构建者想方设法去培养。在开展IR的宣传和推广培养用户需求的同时, 更需要通过IR的服务来吸引用户, 培养用户的刚性需求。用户需求是动态变化的, IR系统应该支持服务功能的完善和提升, 内容组织体系是影响IR服务功能拓展的重要因素。

本研究仅在扩展面向一般用户的IR服务功能方面进行了探索。今后, 将在IR内容的深度利用方面开展进一步实践, 例如: 基于IR内容计量分析的机构学术成果评测、机构学术研究领域结构分析, 希望为机构管理者提供发展战略规划和决策的基础数据支持服务。同时结合科学数据管理, 探讨科学数据与IR内容管理需求的差异, 开展IR与科学数据管理融合的相关研究, 努力使CAUIR成为全面保存、再现、共享、引用和重用机构成员在科研活动全过程中产生学术性信息的开放获取服务系统。

参考文献
[1] 王学勤. 机构知识库建设相关政策研究[J]. 中国图书馆学报, 2007, 33(3): 44-47.
(Wang Xueqin. On Policies Related to the Development of Institutional Repositories[J]. Journal of Library Science in China, 2007, 33(3): 44-47. ) [本文引用:1] [CJCR: 2.697]
[2] 于佳亮, 马建霞, 吴新年. 期刊出版商版权协议对我国机构知识库发展的影响 [J]. 图书情报工作, 2009, 53(12): 144-147, 112. (Yu Jialiang, Ma Jianxia, Wu Xinnian. The Impact of Chinese Journal Publishers’ Copyright Agreement on IRs’ Development [J]. Library and Information Service, 2009, 53(12): 144-147, 112. ) [本文引用:1]
[3] Smith M. DSpace: An Institutional Repository from the MIT Libraries and Hewlett Packard Laboratories[C/OL]. In: Proceedings of the 6th European Conference on Digital Libraries(ECDL 2002) Rome, Italy. 2002: 543-549. [2013-11-14]. http://dspace.mit.edu/bitstream/handle/1721.1/26706/Smith_2002_DSpace.pdf?sequence=1. [本文引用:1]
[4] 陈和, 萧德洪, 林丽敏. 基于DSpace构建机构仓储的本地化实践[J]. 现代图书情报技术, 2007(3): 13-17.
(Chen He, Xiao Dehong, Lin Limin. Localization Practice of Institutional Repository Based on DSpace[J]. New Technology of Library and Information Service, 2007(3): 13-17. ) [本文引用:1] [CJCR: 1.073]
[5] 唐兆琦. 基于DSpace的机构仓储应用研究[D]. 上海: 上海交通大学, 2008.
(Tang Zhaoqi. Applied Research of Institutional Repository Based on DSpace[D]. Shanghai: Shanghai Jiaotong University, 2008. ) [本文引用:1]
[6] Chen K H, Hsiang J. The Unique Approach to Institutional Repository: Practice of National Taiwan University[J]. Electronic Library, 2009, 27(2): 204-221 [本文引用:1]
[7] 刘华. 国外机构知识库的长期保存研究及其启示[J]. 情报资料工作, 2007(3): 49-52.
(Liu Hua. Research on the Long-term Institutional Repository abroad and Its Enlightenment[J]. Information and Documentation Services, 2007(3): 49-52. ) [本文引用:1] [CJCR: 1.169]
[8] 郎庆华. 机构知识库自存储资源的获取策略研究[J]. 情报杂志, 2009, 28(7): 166-169, 184. (Lang Qinghua. Research on the Recruiting Strategies for the Self-archiving’s Resources in Institutional Repositories[J]. Journal of Intelligence, 2009, 28(7): 166-169, 184. ) [本文引用:1] [CJCR: 0.951]
[9] 马建霞. 机构知识库内容建设与服务设计的趋势[J]. 情报理论与实践, 2010, 33(9): 23-27, 41. (Ma Jianxia. Trend of Content Development and Service Design in Institutional Repository [J]. Information Studies: Theory & Application, 2010, 33(9): 23-27, 41. ) [本文引用:1] [CJCR: 1.5]
[10] Royal Netherland s Academy of Arts and Sciences. NARCIS [DB/OL]. [2013-11-17]. http://www.narcis.nl/. [本文引用:1]
[11] Harvard University. Harvard Dataverse Network[DB/OL] [2013-11-17]. http://thedata.harvard.edu/dvn/. [本文引用:1]
[12] Cornell University Library. VIVO: Cornell Research & Scholarship [DB/OL]. [2013-11-17]. http://vivo.cornell.edu/. [本文引用:1]
[13] 臧琳, 韩明杰, 杨国栋, . 我国机构知识库研究现状分析[J]. 图书馆工作与研究, 2010(4): 16-20.
(Zang Lin, Han Mingjie, Yang Guodong, et al. Analysis on Research Status of the Institutional Repository in China[J]. Library Work and Study, 2010(4): 16-20. ) [本文引用:1] [CJCR: 2.036]
[14] 张晓林. 机构知识库的政策、功能和支撑机制分析[J]. 图书情报工作, 2008, 52(1): 23-27, 19. (Zhang Xiaolin. Analysis on Policies, Functions and Enabling Mechanisms for Institutional Repositories[J]. Library and Information Service, 2008, 52(1): 23-27, 19. ) [本文引用:1] [CJCR: 1.193]
[15] 王丽, 孙坦, 张冬荣, . 中国科学院联合机构知识库的建设与推广[J]. 图书馆建设, 2010(4): 10-13.
(Wang Li, Sun Tan, Zhang Dongrong, et al. Construction and Promotion of Federal Institutional Repositories in Chinese Academy of Science[J]. Library Development, 2010(4): 10-13. ) [本文引用:1] [CJCR: 1.87]
[16] 张冬荣, 祝忠明, 李麟, . 中国科学院机构知识库建设推广与服务[J]. 图书情报工作, 2013, 57(1): 20-25.
(Zhang Dongrong, Zhu Zhongming, Li Lin, et al. Construction, Promotion and Service of CAS IRs[J]. Library and Information Service, 2013, 57(1): 20-25. ) [本文引用:1] [CJCR: 1.193]
[17] 史艳芬, 刘玉红. 高校机构库可行性方案研究——以同济大学为例[J]. 图书馆杂志, 2010(9): 47-50, 41. (Shi Yanfen, Liu Yuhong. Discussion on the Feasibility Project of Constructing Institutional Repository in University: Taking Tongji University as an Example[J]. Library Journal, 2010(9): 47-50, 41. ) [本文引用:1]
[18] 李国俊, 王瑜, 王李梅, . 基于元数据的高校机构知识库建设研究——以北京科技大学机构知识库为例[J]. 大学图书馆学报, 2012, 30(4): 55-60.
(Li Guojun, Wang Yu, Wang Limei, et al. Research of Constructing Institutional Repository in University Based on Metadata: Taking IR of University of Science and Technology Beijing as an Example[J]. Journal of Academic Libraries, 2012, 30(4): 55-60. ) [本文引用:1] [CJCR: 3.739]
[19] 卢利农, 祝忠明, 张旺强, . 增强机构知识库内容发现和利用影响的策略与方法实践[J]. 图书与情报, 2012(5): 85-89.
(Lu Linong, Zhu Zhongming, Zhang Wangqiang, et al. Strategies and Methods to Improve IR Discovery and Influence[J]. Library & Information, 2012(5): 85-89. ) [本文引用:1]
[20] Shreeves S L, Cragin M H. Introduction: Institutional Repositories: Current State and Future[J]. Library Trends, 2008, 57(2): 89-97. [本文引用:1]
[21] 杨国栋, 李晨英, 韩明杰, . DSpace新一代Web界面Manakin的研究与实现[J]. 图书情报工作, 2010, 54(1): 113-116.
(Yang Guodong, Li Chenying, Han Mingjie, et al. Investigation and Implementation of Manakin, The New Face for DSpace[J]. Library and Information Service, 2010, 54(1): 113-116. ) [本文引用:1] [CJCR: 1.193]
[22] 北京中数创新技术有限公司. CDI CM 内容管理软件[EB/OL]. [2014-01-14]. http://www.cdi.cn:4237/home/cdi/. (Content Digital Innovation Corp. CDI CM Content Management System[EB/OL]. [2014-01-14]. http://www.cdi.cn:4237/home/cdi/ [本文引用:1]
[23] 李晨英, 杨国栋, 臧琳, . 机构知识库收录期刊论文涉及著作权问题的解决途径探讨[J]. 大学图书馆学报, 2010, 28(1): 74-79.
(Li Chenying, Yang Guodong, Zang Lin, et al. An Approach to Solve the Copyright Issues Involved in Archiving Papers of Academic Journals into Institutional Repository[J]. Journal of Academic Libraries, 2010, 28(1): 74-79. ) [本文引用:1] [CJCR: 3.739]
[24] “中国数字图书馆标准规范建设” 项目组. 中国数字图书馆标准规范建设[R/OL]. [2013-12-31]. http://cdls.nstl.gov.cn/. (China Digital Library Stand ards Working Group. Chinese Digital Library Stand ards Work[R/OL]. [2013-12-31]. http://cdls.nstl.gov.cn/ [本文引用:1]