机构知识库支撑科研服务方法研究
刘雅静12, 王衍喜1, 郝丹1, 周津慧12
1. 中国科学院软件研究所 北京 100190
2. 中国科学院国家科学图书馆 北京 100190

刘雅静: 提出研究思路, 设计研究方案;
王衍喜: 进行聚类方法整合研究, 撰写3.2节IR数据聚类整合与聚类架构设计;
郝丹: 采集、清洗和分析数据, 撰写3.2节IR去重去伪数据流程设计;
周津慧, 刘雅静, 王衍喜, 郝丹: 论文起草;
周津慧, 刘雅静: 论文最终版本修订.

摘要

【目的】

通过研究机构知识库数据高效利用方法和手段, 在分析中国科学院软件研究所机构知识库(ISCAS-IR)用户使用需求的基础上, 设计机构知识库支撑科研服务的方案, 为助推机构知识库支撑科研服务提供应用参考。

【应用背景】

中国科学院国家科学图书馆于2009年面向全院研究所启动机构知识库建设示范和推广工作, 中国科学院软件研究所成为首批示范应用单位, 笔者在完成机构科研产出数据存缴的基础上, 探索科研支撑服务有效方法和手段, 有效地利用IR为研究所科研工作提供支撑服务。

【方法】

依据知识服务中ISCAS-IR数据组织需求, 设计满足科研支撑服务需求的数据提取与整合方法和知识服务方案, 为实现面向中国科学院软件研究所学术科研活动的科研支撑服务提供技术基础。

【结果】

高效利用ISCAS-IR中存缴的机构科研产出数据, 为科研人员了解本机构的科研学术研究情况提供支撑, 解决了长期以来人工统计科研产出问题, 为科研管理部门了解研究所科研产出提供支撑。

【结论】

ISCAS-IR的建设实践, 给出一种通过了解机构科研服务需求、设计科研支撑服务方案、发挥IR资源优势、提高机构知识库的应用价值的方法和可供参考的应用实践案例。

关键词: 机构知识库; 科研支撑服务; 主题聚类; 信息抽取; IR服务案例
Study on the Methods of Institutional Repository Supporting Research Services
Liu Yajing12, Wang Yanxi1, Hao Dan1, Zhou Jinhui12
1. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China
2. National Science Library, Chinese Academy of Sciences, Beijing 100190, China
Abstract

[Objective]

This paper trends to research the efficient methods and means to use Institute of Software Chinese Academy of Sciences Institution Repository(ISCAS-IR), design the solution to support research service through analyzing the needs of ISCAS-IR, and then provide reference for IR application in supporting scientific services.

[Context]

National Science Library Chinese Academy of Science started the construction of institutional repository in 2009, ISCAS participated to become one of the first demonstration institutions. On the basis of completing the data storage, ISCAS explores the effective ways to support ISCAS research service with IR.

[Methods]

According to the need of data organization in ISCAS-IR, the authors design the proposal satisfied the need of knowledge service on data extraction and integration, supply the technology for ISCAS research supporting service.

[Results]

Making use of the ISCAS-IR effectively, the approach for researcher and scientific management department to acknowledge the research output is supplied, and the statistics problems of research output by hand is solved.

[Conclusions]

This paper supplies the method and practical proposal for the IR users on analyzing the research needs, making use of IR data effectively and improving the application of IR data.

Keyword: Institutional Repository (IR); Research support services; Topic clustering; Information extraction; IR service case
1 引 言

信息技术快速发展极大丰富了图书馆转型发展的内容, 使得图书馆自身与用户服务拥有更多的内容和方向, 机构知识数据库(Institutional Repository, IR)的建立为充实、丰富和利用数据资源起到至关重要的作用。犹如康奈尔大学图书馆信息技术战略规划中把大学知识资产管理纳入发展目标[1]。哈佛大学通过图书馆管理的机构知识库, 重构“学习图景”、重整不适应的或成本过高的学术交流体系, “取代封闭和昂贵的旧系统, 形成一个易于自由传播观点的数字化共同体”[2]。然而, 当前机构知识库的现状并不像哈佛大学的愿景如此美好, 更多的机构知识库内容尚少、效果不佳; 使命受到质疑、技术有待更新、缺少机构真正意义上的参与[2]。威斯康星大学机构知识库管理者认为, 机构知识库没有任何专门的使命, 今后机构知识库建设的出路在于思考机构知识库专门的、有益于机构成员、且有益于宣传的服务[3]; 加利福尼亚图书馆已经放弃尝试机构知识库, 取而代之的是启动更深层次的eScholarship存储库, 并提供一系列的更为完善的服务[3]; 机构知识库的先驱之一CNI的Lynch认为“为学术文献提供一个可供选择的出版模式, 是IR未来的发展方向”[3]

中国科学院国家科学图书馆(简称国科图)自2009年面向全院研究所启动了机构知识库建设示范和推广工作[4]。中国科学院软件研究所(Institute of Software, Chinese Academy of Sciences, ISCAS), 作为第一批参与建设的机构, 构建了中国科学院软件研究所(简称中科院软件所)机构知识库(简称ISCAS-IR), 通过分析、研究中科院软件所用户使用需求和IR建设平台中的数据统计分析功能, 设计实现了基于机构知识库的面向科研一线的科研支撑服务, 为研究所科研人员展示个人科研成果和科技管理部门统计分析机构科研产出提供了准确、完整、真实的数据, 同时彰显了IR支撑科研服务的重要性, 也为机构知识库数据的再计算与再利用提供了有效的解决方案。

2 多视角下的IR用户使用需求分析

众所周知, 机构知识库中存缴着来源于本机构的科研产出数据。面对不同的科研用户群体, 其使用需求也有所不同:

(1) 从科研人员视角, 他们作为科研活动的主体, 直接参与承担着科研活动中的项目信息资源搜集、分析与提炼等工作。对机构知识库的利用需求主要包括存缴文献、积累个人科研产出, 同时通过机构知识库了解和分析机构内学者科研工作, 以达到提高个人科研产出的学术影响力、增加个人科研成果的可见性和方便学者间学术科研交流活动开展的目的。

(2) 从科研管理者视角, 他们承担着研究所总体发展规划、科研部署、业务与行政管理等任务。对机构知识库的利用需求主要包括及时、准确地统计分析研究所/实验室/学科团队/个人等科研产出情况、了解本机构知识库的访问情况, 发现机构学术研究成果被关注度、发现高水平科研成果和科技文献、发现机构专家人才等, 以达到全面了解本机构科研产出整体情况, 辅助科研管理工作有效进行的目的。

(3) 从图书馆科研支撑服务视角, 承担着辅助研究所科研产出发现、整合、推送及利用分析与统计工作。利用机构知识库, 可以快速、简洁、准确地提取、统计和分析研究所的科研产出数据, 为研究所提供科研产出统计分析年报、依据研究所科研产出聚类主要研究人员、主要研究方向等, 开展知识利用与知识服务, 以达到图书馆开展面向研究所和科研人员的知识服务转型、能力提升的目的, 彰显图书馆支撑科研活动中不可或缺的作用。

上述不同视角下科研用户对IR的使用需求如图1所示:

图1 多视角下科研群体的IR利用需求

3 ISCAS-IR科研支撑服务设计

3.1 ISCAS-IR支撑服务框架设计

ISCAS-IR利用国科图提供的机构知识库建设工具, 构建了面向ISCAS的科研支撑框架,如图2所示:

图2 ISCAS-IR框架

由图2可知, 为实现ISCAS-IR科研支撑服务, ISCAS-IR的数据组织需包括文献信息、科研报告、软件著作权和专利数据等, 由此构成由信息资源层、存储层和服务层组成的三级架构。信息资源层主要是对机构自存科研产出数据、机构学者发表科研产出数据、机构学者收录引用数据进行采集和对数据进行收集、整理, 数据包括数据流和数字对象的元数据包文件; 存储层负责从不同角度对采集的数据进行存储, 同时提供ISCAS-IR内容管理、发布管理、用户管理和权限管理; 服务层是指IR为ISCAS用户提供基础服务、知识服务和统计分析服务等功能。其中, 基础服务借助国科图提供的IR支撑功能实现; 知识服务借助笔者所在IR支撑服务团队研发信息整合、信息组织与信息聚类工具实现; 统计分析服务借助笔者所在IR支撑团队对IR数据的有效审核与控制和国科图IR支撑工具中的统计分析功能实现。

3.2 ISCAS-IR数据利用方法设计

为保证机构数据库数据的高效利用, 笔者通过研究数据信息整合、信息组织与聚类方法, 采用技术手段设计ISCAS-IR支撑服务功能。

由于知识服务需要对数据信息进行提取、整合和重新组织, 因此, 在使用ISCAS-IR机构知识库开展知识服务时, 往往需要采取输入多种检索条件进行检索、导出多个检索结果数据包, 通过人工方式对多个数据包数据进行解析-整理-整合, 再用于科研支撑服务。这种方式不仅工作量大且工作效率低, 同时服务质量也难以保证。

为此, 笔者所在ISCAS-IR建设与服务团队, 通过分析各数据包中同一篇文献存在多个部门属性、多个学科属性、标题/关键词/摘要的中英文属性等多种属性问题, 构建数据信息提取与整合规范, 通过去重和去伪后提供支撑科研的知识服务。其技术架构如图3所示:

图3 ISCAS-IR数据整合与聚类技术架构

其中, 数据去重是以文献标题为特征项, 对多个数据包中同名文献数据进行合并; 数据去伪是对检索条件取“非”的数据进行剔除。具体做法如图4所示:

图4 去重/去伪数据流程

3.3 ISCAS-IR支撑服务功能设计

根据3.1节框架设计内容, ISCAS-IR支撑服务的功能设计包括三方面内容, 即: 基础服务功能设计、知识服务功能设计、统计分析服务功能设计。

(1)基础服务功能设计

应建立机构或其成员能方便使用的存缴、收集接口, 支持批量存缴机构知识成果, 支持从其他内容系统(学位论文管理、图书期刊出版、学术会议内容发布、科研管理、个人或机构网站等系统)获得作品或元数据, 集中展现相应对象所产生的知识成果。应提供知识目录的定制功能, 提供知识目录相互关联浏览的能力[5]

(2) 知识服务功能设计

应支持机构专家文献、学科文献、部门文献的数据组织与聚合, 组织研究所及其下属研究室、个人成员正式在各类网站上发布的学术期刊、会议论文、学位论文、科技报告、图书、专利、标准等公开文献类型; 有竞争意义的知识内容(例如涉及竞争性产品、方法、技术等)和内部管理性质的知识内容(例如内部工作计划、预算、评价、规范、程序等)[5]。以机构部门为单位, 应用“部门+内容类型”的发布管理形式, 组织聚合部门专家文献。以机构学科为线索, 应用“学科+内容类型”的发布管理方式, 聚合机构学科文献。并以上述数据为基础, 组织机构文献被收录与引用的信息, 便于科研人员在有效使用、管理科研产出的基础上, 了解科研产出概貌。

(3) 统计分析服务功能设计

应支持面对科研一线、科研管理部门及图书情报支撑部门的统计分析功能。对于科研一线, 应支持研究人员、课题组、实验室等的论文产出统计分析, 发文趋势统计, 被收录文献统计; Top-研究人员、实验室、课题组、发展需求与能力差距分析, 解决本所科研人员发表的论文可能本所也不容易访问和获得的问题; 对于科研管理部门, 应改变本所研究产出分散“保存”的现状, 对于项目结题、课题组解散或重组、人员流动等都可能导致研究产出的逐步流失, 实现对各种类型数字知识资产的统一管理, 提供按机构、学科、部门知识产出分布概貌分析; 对于图书馆科研支撑服务, 应逐步支持对机构的知识需求分析、知识能力分析、知识关系分析、知识资产应用分析等[6]

3.4 ISCAS-IR规范数据保证机制设计

IR数据来自各个异构的数据源, 而数据源本身对数据标引存在不准确和不完整问题, 因此, 需要构建服务团队和规范化建设机制, 对系统采集的元数据与人工干预方法的结合运用, 以保证元数据的正确性。其工作团队模式与数据保障工作流程如图5所示:

图5 工作团队模式和数据保障工作流程

由此, 笔者所在ISCAS-IR建设团队从技术支撑角度, 研发数据采集与导出工具, 以保证数据的完整性; 从推广角度, 与科研部门联合, 组建“核心团队”+“动态成员”的IR建设团队, 将以图书馆为主的数据存缴逐步转向以部门秘书及科研人员为主的数据存缴方式, 并在完成IR数据存缴工作的同时实现IR数据向ARP数据的导入; 从管理角度, 探索集研究所之合力, 创建“核心团队”+“动态成员”的组织模式, 其中, “核心团队”由图书馆、科技处、信息中心主要领导及相关工作人员组成, “动态成员”由部门秘书或部门主任或指定的科研人员或课题组长组成, 以保障IR建设的有序进行; 从服务角度, 将IR建设纳入图书馆支撑与服务范畴; 从应用角度, 将IR数据嵌入研究所/部门/课题组的学科信息环境中, 形成自下而上的IR建设机制, 使IR高效、持久地服务于科研活动。

4 基于ISCAS-IR的科研支撑服务

4.1 嵌入学科平台的资源整合方法及应用

ISCAS-IR数据快速、高效增长, 但语种多样性、文献类型多样性、文献格式多样性等数据加工的复杂问题, 影响了用户对IR的利用。ISCAS-IR利用数据格式转化方法, 在转换前构建中间库, 借助中间库应用PHPExcel组件来生成完全符合IR系统上传要求的文档。将来源数据按规范要求进行数据清洗, 存入中间数据库; 其次, 对来源于中间数据库且已经进行过分项处理的各类元数据, 按照IR系统的上传数据格式要求, 进行排列组合; 最后, 输出符合条件的待传数据, 可分别导出该机构的符合IR上传模板的回溯数据文献, 高效支撑了IR数据的采集与导入, 数据转化流程如图6所示:

图6 数据转化流程

随着图书馆群组集成知识平台项目的建立需求, ISCAS-IR数据按期刊/会议论文、学位论文、科研报告、著作、专利、成果等分类方式嵌入学科知识平台, 与平台中其他数据有效结合运用, 既充实了群组集成知识平台的一站式服务功能, 同时也体现了ISCAS-IR元数据准确和完整性的优势。这一个巧妙的结合, 实现了IIP[7]与IR的互利应用, 拓展了ISCAS-IR的服务模式, 方便科研人员在一站式环境中高效利用资源, 如图7所示:

图7 ISCAS-IR期刊论文嵌入学科知识平台

4.2 机构知识主题聚类方法及应用

随着数据密集型科研的发展, 只关注科研产出末端的知识产出已经不能满足科研用户的需求[8]。科研用户对IR利用的需求, 已经从依据标题查全文、依据作者查全文、依据期刊查全文、依据会议查全文的单篇文献获取方式转变为侧重于主题聚类而发现知识的需求, 即科研用户更加关注主题聚类下的学者、文献、被收录文献、高被引频次文献等具有知识体现的数据信息。

由此, 笔者采取依据用户提供的检索主题, 对机构基于文献英文标题、关键词和摘要信息等按主题词进行词根抽取、词频统计等加工处理, 形成若干与主题词相关的Topic数组, 再运用概率统计方式对作者与主题、文献与主题标注相关主题Topic标签, 以此将作者与主题、文章与主题进行聚类展现, 以满足科研用户使用需求, 如图8和图9所示:

图8 基于主题模型算法流程

图9 聚类展现方式

4.3 科研产出统计分析方法及应用

科研机构不仅需要将科研知识典集进行长期集中管理和保存, 更重要的是需要利用知识资产分析评价机构的研究方向、过程、趋势和结果; 完善科研产出管理、提高绩效管理和评价工作的效率, 提升机构学术影响力和成果展示度, 提升机构声誉和品牌, 宣示机构的社会价值[9]

为此, 基于国科图统一部署, 国科图兰州分馆技术研发团队支撑建设的ISCAS-IR平台具有强大数据统计分析功能, 将这些统计分析功能应用于研究所科研产出统计管理, 为科研产出统计年报提供支撑, 其分析功能页面及部分统计分析如图10所示:

图10 分析功能页面及部分统计分析图

5 结 论

IR建设的重要价值不仅在于存缴和积累机构知识资产数据, 更重要的是利用好本机构多年的科研产出成果。本文研究机构知识库中科研产出数据的高效利用方法, 探索了可供参考的IR建设与推广的方案与解决途径。然而, 随着研究所学术活动新需求的不断涌现, 笔者发现, 用户对IR的需求已经从功能需求转变为对IR数据质量控制和科研支撑服务方法需求, 比如: 用户个人上传论文的时候, 如何保障相对滞后的收引情况和课题资助信息等, 这类问题将有待于探索和解决, 以此保障IR在支撑科研活动中发挥更大作用。

参考文献
[1] Cornell University Library. Positioning Cornell University as a Leader in the 21st Century: The Role of Information Technologies [EB/OL]. [2013-10-13]. http://www.library.cornell.edu/staffweb/CUL%20IT%20Strategic%20Plan.pdf. [本文引用:1]
[2] Darnton R. The Library in the New Age [J/OL]. The New York Review of Books, 2008, 55(10). [2013-10-30]. http://www.nybooks.com/articles/archives/2008/jun/12/the-library-in-the-new-age/. [本文引用:2]
[3] Albanese A R. Institutional Repositories: Thinking Beyond the Box [J/OL]. Library Journal, 2009, 134(4): 26-28. [2013-10-02]. http://www.libraryjournal.com/article/CA6639327.html?industryid=47109.http://lj.libraryjournal.com/2010/05/academic-libraries/institutional-repositories-thinking-beyond-the-box/. [本文引用:3]
[4] 张冬荣, 祝忠明, 李麟, . 中国科学院机构知识库建设推广与服务[J]. 图书情报工作, 2013, 57(1): 20-25.
(Zhang Dongrong, Zhu Zhongming, Li Lin, et al. Construction, Promotion and Service of CAS IRs[J]. Library and Information Service, 2013, 57(1): 20-25. ) [本文引用:1] [CJCR: 1.193]
[5] 张晓林. 机构知识库的政策、功能和支撑机制分析[J]. 图书情报工作, 2008, 52(1): 23-29.
(Zhang Xiaolin. Analysis on Policies, Functions and Enabling Mechanisms for Institutional Repositories[J]. Library and Information Service, 2008, 52(1): 23-29. ) [本文引用:2] [CJCR: 1.193]
[6] 祝忠明. 基于CAS-IR系统的研究所IR建设 [R/OL]. [2014-01-04]. http://ir.las.ac.cn/handle/12502/1670.(ZhuZhongming.IRConstructionforInstitutesBasedonCAS-IRSystem[R/OL]. [2014-01-04]. http://ir.las.ac.cn/handle/12502/1670 [本文引用:1]
[7] 刘毅, 汤怡洁, 杨锐, . 基于Liferay Portal的所级图书馆集成信息服务平台设计与实现[J]. 现代图书情报技术, 2008(6): 72-77.
(Liu Yi, Tang Yijie, Yang Rui, et al. The Design and Implement of Institution Integration Information Platform Based on Liferay Portal[J]. New Technology of Library and Information Service, 2008(6): 72-77. ) [本文引用:1] [CJCR: 1.073]
[8] 赵迎光, 马建霞. 基于科学工作流的科研知识产出管理和利用研究[J]. 情报杂志, 2012, 31(3): 151-156.
(Zhao Yingguang, Ma Jianxia. Research on Management and Utilization of Output of Knowledge in Scientific Research Based on Scientific Workflow[J]. Journal of Intelligence, 2012, 31(3): 151-156. ) [本文引用:1] [CJCR: 0.951]
[9] 聂华, 韦成府, 崔海媛. CALIS 机构知识库: 建设与推广、反思与展望[J]. 中国图书馆学报, 2013, 39(2): 46-51.
(Nie Hua, Wei Chengfu, Cui Haiyuan. CALIS Institutional Repository: Construction and Promotion, Reflection and Prospects[J]. Journal of Library Science in China, 2013, 39(2): 46-51. ) [本文引用:1] [CJCR: 2.697]