刘雅静: 提出研究思路, 设计研究方案;
王衍喜: 进行聚类方法整合研究, 撰写3.2节IR数据聚类整合与聚类架构设计;
郝丹: 采集、清洗和分析数据, 撰写3.2节IR去重去伪数据流程设计;
周津慧, 刘雅静, 王衍喜, 郝丹: 论文起草;
周津慧, 刘雅静: 论文最终版本修订.
通过研究机构知识库数据高效利用方法和手段, 在分析中国科学院软件研究所机构知识库(ISCAS-IR)用户使用需求的基础上, 设计机构知识库支撑科研服务的方案, 为助推机构知识库支撑科研服务提供应用参考。
【应用背景】中国科学院国家科学图书馆于2009年面向全院研究所启动机构知识库建设示范和推广工作, 中国科学院软件研究所成为首批示范应用单位, 笔者在完成机构科研产出数据存缴的基础上, 探索科研支撑服务有效方法和手段, 有效地利用IR为研究所科研工作提供支撑服务。
【方法】依据知识服务中ISCAS-IR数据组织需求, 设计满足科研支撑服务需求的数据提取与整合方法和知识服务方案, 为实现面向中国科学院软件研究所学术科研活动的科研支撑服务提供技术基础。
【结果】高效利用ISCAS-IR中存缴的机构科研产出数据, 为科研人员了解本机构的科研学术研究情况提供支撑, 解决了长期以来人工统计科研产出问题, 为科研管理部门了解研究所科研产出提供支撑。
【结论】ISCAS-IR的建设实践, 给出一种通过了解机构科研服务需求、设计科研支撑服务方案、发挥IR资源优势、提高机构知识库的应用价值的方法和可供参考的应用实践案例。
This paper trends to research the efficient methods and means to use Institute of Software Chinese Academy of Sciences Institution Repository(ISCAS-IR), design the solution to support research service through analyzing the needs of ISCAS-IR, and then provide reference for IR application in supporting scientific services.
[Context]National Science Library Chinese Academy of Science started the construction of institutional repository in 2009, ISCAS participated to become one of the first demonstration institutions. On the basis of completing the data storage, ISCAS explores the effective ways to support ISCAS research service with IR.
[Methods]According to the need of data organization in ISCAS-IR, the authors design the proposal satisfied the need of knowledge service on data extraction and integration, supply the technology for ISCAS research supporting service.
[Results]Making use of the ISCAS-IR effectively, the approach for researcher and scientific management department to acknowledge the research output is supplied, and the statistics problems of research output by hand is solved.
[Conclusions]This paper supplies the method and practical proposal for the IR users on analyzing the research needs, making use of IR data effectively and improving the application of IR data.
信息技术快速发展极大丰富了图书馆转型发展的内容, 使得图书馆自身与用户服务拥有更多的内容和方向, 机构知识数据库(Institutional Repository, IR)的建立为充实、丰富和利用数据资源起到至关重要的作用。犹如康奈尔大学图书馆信息技术战略规划中把大学知识资产管理纳入发展目标[
中国科学院国家科学图书馆(简称国科图)自2009年面向全院研究所启动了机构知识库建设示范和推广工作[
众所周知, 机构知识库中存缴着来源于本机构的科研产出数据。面对不同的科研用户群体, 其使用需求也有所不同:
(1) 从科研人员视角, 他们作为科研活动的主体, 直接参与承担着科研活动中的项目信息资源搜集、分析与提炼等工作。对机构知识库的利用需求主要包括存缴文献、积累个人科研产出, 同时通过机构知识库了解和分析机构内学者科研工作, 以达到提高个人科研产出的学术影响力、增加个人科研成果的可见性和方便学者间学术科研交流活动开展的目的。
(2) 从科研管理者视角, 他们承担着研究所总体发展规划、科研部署、业务与行政管理等任务。对机构知识库的利用需求主要包括及时、准确地统计分析研究所/实验室/学科团队/个人等科研产出情况、了解本机构知识库的访问情况, 发现机构学术研究成果被关注度、发现高水平科研成果和科技文献、发现机构专家人才等, 以达到全面了解本机构科研产出整体情况, 辅助科研管理工作有效进行的目的。
(3) 从图书馆科研支撑服务视角, 承担着辅助研究所科研产出发现、整合、推送及利用分析与统计工作。利用机构知识库, 可以快速、简洁、准确地提取、统计和分析研究所的科研产出数据, 为研究所提供科研产出统计分析年报、依据研究所科研产出聚类主要研究人员、主要研究方向等, 开展知识利用与知识服务, 以达到图书馆开展面向研究所和科研人员的知识服务转型、能力提升的目的, 彰显图书馆支撑科研活动中不可或缺的作用。
上述不同视角下科研用户对IR的使用需求如图1所示:
3.1 ISCAS-IR支撑服务框架设计
ISCAS-IR利用国科图提供的机构知识库建设工具, 构建了面向ISCAS的科研支撑框架,如图2所示:
由图2可知, 为实现ISCAS-IR科研支撑服务, ISCAS-IR的数据组织需包括文献信息、科研报告、软件著作权和专利数据等, 由此构成由信息资源层、存储层和服务层组成的三级架构。信息资源层主要是对机构自存科研产出数据、机构学者发表科研产出数据、机构学者收录引用数据进行采集和对数据进行收集、整理, 数据包括数据流和数字对象的元数据包文件; 存储层负责从不同角度对采集的数据进行存储, 同时提供ISCAS-IR内容管理、发布管理、用户管理和权限管理; 服务层是指IR为ISCAS用户提供基础服务、知识服务和统计分析服务等功能。其中, 基础服务借助国科图提供的IR支撑功能实现; 知识服务借助笔者所在IR支撑服务团队研发信息整合、信息组织与信息聚类工具实现; 统计分析服务借助笔者所在IR支撑团队对IR数据的有效审核与控制和国科图IR支撑工具中的统计分析功能实现。
3.2 ISCAS-IR数据利用方法设计
为保证机构数据库数据的高效利用, 笔者通过研究数据信息整合、信息组织与聚类方法, 采用技术手段设计ISCAS-IR支撑服务功能。
由于知识服务需要对数据信息进行提取、整合和重新组织, 因此, 在使用ISCAS-IR机构知识库开展知识服务时, 往往需要采取输入多种检索条件进行检索、导出多个检索结果数据包, 通过人工方式对多个数据包数据进行解析-整理-整合, 再用于科研支撑服务。这种方式不仅工作量大且工作效率低, 同时服务质量也难以保证。
为此, 笔者所在ISCAS-IR建设与服务团队, 通过分析各数据包中同一篇文献存在多个部门属性、多个学科属性、标题/关键词/摘要的中英文属性等多种属性问题, 构建数据信息提取与整合规范, 通过去重和去伪后提供支撑科研的知识服务。其技术架构如图3所示:
其中, 数据去重是以文献标题为特征项, 对多个数据包中同名文献数据进行合并; 数据去伪是对检索条件取“非”的数据进行剔除。具体做法如图4所示:
3.3 ISCAS-IR支撑服务功能设计
根据3.1节框架设计内容, ISCAS-IR支撑服务的功能设计包括三方面内容, 即: 基础服务功能设计、知识服务功能设计、统计分析服务功能设计。
(1)基础服务功能设计
应建立机构或其成员能方便使用的存缴、收集接口, 支持批量存缴机构知识成果, 支持从其他内容系统(学位论文管理、图书期刊出版、学术会议内容发布、科研管理、个人或机构网站等系统)获得作品或元数据, 集中展现相应对象所产生的知识成果。应提供知识目录的定制功能, 提供知识目录相互关联浏览的能力[
(2) 知识服务功能设计
应支持机构专家文献、学科文献、部门文献的数据组织与聚合, 组织研究所及其下属研究室、个人成员正式在各类网站上发布的学术期刊、会议论文、学位论文、科技报告、图书、专利、标准等公开文献类型; 有竞争意义的知识内容(例如涉及竞争性产品、方法、技术等)和内部管理性质的知识内容(例如内部工作计划、预算、评价、规范、程序等)[
(3) 统计分析服务功能设计
应支持面对科研一线、科研管理部门及图书情报支撑部门的统计分析功能。对于科研一线, 应支持研究人员、课题组、实验室等的论文产出统计分析, 发文趋势统计, 被收录文献统计; Top-研究人员、实验室、课题组、发展需求与能力差距分析, 解决本所科研人员发表的论文可能本所也不容易访问和获得的问题; 对于科研管理部门, 应改变本所研究产出分散“保存”的现状, 对于项目结题、课题组解散或重组、人员流动等都可能导致研究产出的逐步流失, 实现对各种类型数字知识资产的统一管理, 提供按机构、学科、部门知识产出分布概貌分析; 对于图书馆科研支撑服务, 应逐步支持对机构的知识需求分析、知识能力分析、知识关系分析、知识资产应用分析等[
3.4 ISCAS-IR规范数据保证机制设计
IR数据来自各个异构的数据源, 而数据源本身对数据标引存在不准确和不完整问题, 因此, 需要构建服务团队和规范化建设机制, 对系统采集的元数据与人工干预方法的结合运用, 以保证元数据的正确性。其工作团队模式与数据保障工作流程如图5所示:
由此, 笔者所在ISCAS-IR建设团队从技术支撑角度, 研发数据采集与导出工具, 以保证数据的完整性; 从推广角度, 与科研部门联合, 组建“核心团队”+“动态成员”的IR建设团队, 将以图书馆为主的数据存缴逐步转向以部门秘书及科研人员为主的数据存缴方式, 并在完成IR数据存缴工作的同时实现IR数据向ARP数据的导入; 从管理角度, 探索集研究所之合力, 创建“核心团队”+“动态成员”的组织模式, 其中, “核心团队”由图书馆、科技处、信息中心主要领导及相关工作人员组成, “动态成员”由部门秘书或部门主任或指定的科研人员或课题组长组成, 以保障IR建设的有序进行; 从服务角度, 将IR建设纳入图书馆支撑与服务范畴; 从应用角度, 将IR数据嵌入研究所/部门/课题组的学科信息环境中, 形成自下而上的IR建设机制, 使IR高效、持久地服务于科研活动。
4.1 嵌入学科平台的资源整合方法及应用
ISCAS-IR数据快速、高效增长, 但语种多样性、文献类型多样性、文献格式多样性等数据加工的复杂问题, 影响了用户对IR的利用。ISCAS-IR利用数据格式转化方法, 在转换前构建中间库, 借助中间库应用PHPExcel组件来生成完全符合IR系统上传要求的文档。将来源数据按规范要求进行数据清洗, 存入中间数据库; 其次, 对来源于中间数据库且已经进行过分项处理的各类元数据, 按照IR系统的上传数据格式要求, 进行排列组合; 最后, 输出符合条件的待传数据, 可分别导出该机构的符合IR上传模板的回溯数据文献, 高效支撑了IR数据的采集与导入, 数据转化流程如图6所示:
随着图书馆群组集成知识平台项目的建立需求, ISCAS-IR数据按期刊/会议论文、学位论文、科研报告、著作、专利、成果等分类方式嵌入学科知识平台, 与平台中其他数据有效结合运用, 既充实了群组集成知识平台的一站式服务功能, 同时也体现了ISCAS-IR元数据准确和完整性的优势。这一个巧妙的结合, 实现了IIP[
4.2 机构知识主题聚类方法及应用
随着数据密集型科研的发展, 只关注科研产出末端的知识产出已经不能满足科研用户的需求[
由此, 笔者采取依据用户提供的检索主题, 对机构基于文献英文标题、关键词和摘要信息等按主题词进行词根抽取、词频统计等加工处理, 形成若干与主题词相关的Topic数组, 再运用概率统计方式对作者与主题、文献与主题标注相关主题Topic标签, 以此将作者与主题、文章与主题进行聚类展现, 以满足科研用户使用需求, 如图8和图9所示:
IR建设的重要价值不仅在于存缴和积累机构知识资产数据, 更重要的是利用好本机构多年的科研产出成果。本文研究机构知识库中科研产出数据的高效利用方法, 探索了可供参考的IR建设与推广的方案与解决途径。然而, 随着研究所学术活动新需求的不断涌现, 笔者发现, 用户对IR的需求已经从功能需求转变为对IR数据质量控制和科研支撑服务方法需求, 比如: 用户个人上传论文的时候, 如何保障相对滞后的收引情况和课题资助信息等, 这类问题将有待于探索和解决, 以此保障IR在支撑科研活动中发挥更大作用。
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|

