以中国科学院机构知识库CAS OpenIR为例,介绍机构知识库系统中知识资产统计模块的扩展开发及研究。提出一种多维可定制的知识资产统计数据组织模式,该模式可以满足多个机构多种统计需求,为各研究所利用CAS OpenIR进行知识资产统计提供一种广泛适用且便捷有效的处理方案。
Based on CAS OpenIR,this paper describes how to develop knowledge property statistics module.At the same time, it proposes a multi-custom knowledge property statistics model, which can satisfy different statistical demands from multiple institutes. It also provides a widely available,convenient and effective solution for the institutes’s knowledge property statistics using CAS OpenIR.
目前,常用的几种机构知识库[ 1]平台如DSpace[ 2]、EPrints[ 3]、Fedora[ 4]等,提供的统计和分析功能都是面向资源的访问、保存和使用。例如,DSpace和EPrints提供的统计功能都是通过对日志文件进行分析来提供统计结果,可提供的统计类型有限,主要是对一定时间段内系统的访问、浏览以及下载量的统计,对于从元数据以及用户与条目关联的角度对系统内资源的统计功能还有所欠缺。
CAS OpenIR是中国科学院国家科学图书馆兰州分馆基于DSpace扩展开发的机构知识库系统[ 5, 6, 7],调研其在近百家中国科学院内研究所的使用情况,笔者发现,研究所不仅需要系统地访问统计数据,也有从各个角度对系统中的知识资产进行统计以及了解机构内的部门、人员等与知识资产间的关联数据的需求;而且,不同的研究所通常关注的统计角度都不一样。这就需要一种数据组织模式实现多维可定制的功能,即统计条件的组成、统计条件的选择、统计结果表的结构、详细统计结果表的结构以及统计结果图的类型均为动态可定制的,以此来提高统计功能的灵活性。这样研究所就能根据自己的实际使用需求,对统计表单的生成、统计项的选择到统计结果的形式等进行灵活定制,实现系统内部元数据的任意组合,最大程度地满足研究所多样化的需求。
笔者将分个性化知识资产统计功能设计和实现两部分,详细阐述CAS OpenIR的个性化知识资产统计功能的数据组织模式及实现方法。
通过调研CAS OpenIR在研究所的实际使用情况以及与研究所相关人员的交流,笔者发现知识资产统计功能要满足两个需求:
(1)研究所在进行知识资产管理的时候需要从不同的角度了解知识资产的数量,也需要了解知识资产产出量与系统内用户元数据间的关联关系;
(2)由于各个研究所在进行知识资产管理时侧重的角度不同,而且CAS OpenIR又是一个需要在近百家研究机构中进行部署的机构知识仓储平台,因此,为每家研究机构单独开发统计模块是不现实的。这就需要一种数据组织模式实现多维可定制的功能,以满足用户定制统计的条件组合、结果表现形式个性化的知识资产统计的需求。
具体工作过程如图1所示:
整个统计的流程分为统计条件设置和内容统计两部分。在统计条件设置阶段,系统将所有元数据列出,用户选择需要了解的元数据组成统计条件表单项和详细统计结果列表项。在内容统计部分系统将根据用户选择的统计条件表单项自动生成统计条件表单,可定制统计条件组合、统计结果表和统计结果图的类型,选择完毕后提交表单。系统根据用户的定制情况自动生成并返回统计结果表和统计结果图。在返回的统计结果基础上,用户可以继续进行详细结果列表(根据统计设置阶段选择的详细统计结果列表项生成)的查询、Excel导出等操作。
CAS OpenIR中的信息主要包括条目信息和用户信息,统计功能需求的一个主要的方面,是将条目信息和用户信息联合起来进行统计,同时,为了提高统计的效率,在实现功能前,要对原系统做如下数据准备工作。
CAS OpenIR中描述一个条目(Item)最基本的元素是元数据(Metadata),元数据注册表(Metadatafieldregistry)中保存系统所有用于描述条目的元数据,每个元数据有一个元数据索引(metadata_field_id);所有条目的描述信息保存在Metadatavalue表中,一个条目(item_id)和一个元数据(metadata_field_id)联合构成对一个条目的一个元数据的描述。因此,可以看出CAS OpenIR中对于一个条目的描述粒度是细化到每个元数据上的,这种数据组织方式可以将一个条目即知识资产描述得详细而且结构清晰,便于条目的保存、组织和利用;但是,作为统计功能的数据来源,可能因为数据量过大而且结构复杂(一个条目可能产生多个元数据信息)导致统计效率的降低;因此,需要首先对描述条目的元数据(Metadatavalue)表进行整理。
具体做法是首先新建表stat_result,将item_id及所有元数据作为stat_result的字段,字段名为meta_加上元数据注册表中对应的元数据索引(metadata_field_id)即metadata_(metadata_field_id)。然后将原系统中条目描述表(Metadatavalue)中的信息(text_value)按stat_result表中的格式进行填充。这样整理出的数据以条目作为描述单位包含所有元数据信息,便于检索和统计,如图2所示:
CAS OpenIR中的作者元数据包括作者的姓名、单位、部门、职称等重要信息,都保存在用户信息(Eperson)表中。在原型系统DSpace中进行条目元数据与作者元数据的关联操作是通过一个条目作者映射(Itemsbyauthor)表进行的,这种数据组织形式虽然便于元数据的保存和管理,但是在统计操作的时候却需要通过条目作者映射表来连接两部分元数据信息,相当于多了一个检索步骤,极大地影响了统计的效率。
为了解决两部分元数据的联合统计效率问题,就需要扩展条目作者映射表,在条目作者映射表中增加用户信息表中的字段,并将用户信息中的对应内容补充进条目作者映射表中。这样做虽然增加了数据表信息的冗余,但是也极大地提高了统计检索的效率。整个过程如图3所示:
为了实现统计条件及各级统计结果的可定制功能,在元数据信息(Metadatafieldregistry)表中扩展“是否作为统计条件”以及“是否作为详细信息显示项”的标志字段,新建作者元数据管理表以及统计条件组合表。
在CAS OpenIR中,所有知识资产都是用元数据描述的;因此,将所有元数据作为统计条件,可以实现从各种不同的角度对知识资产进行统计。但是,CAS OpenIR中一般都有90多个不同的元数据且是动态可调整的,随着系统的使用可能还会不断增加,罗列所有的元数据作为统计条件组合显然是不现实的,这就需要对作为统计条件的元数据有一个定制的操作。用户可以根据实际的使用需要定制元数据生成不同的统计条件组合表单。
本文为系统管理员开放元数据的中文名、元数据显示形式以及是否可以放入统计条件组合表单中三个可操作参数,使其可以定义元数据在系统中作为统计条件的名称、显示形式以及是否作为备选的统计条件出现,如图4所示:
设置完成后,可以得到一个包含所有可以作为统计条件的元数据列表,用户可以根据自己的需要在这个列表组中定制任意的元数据组合生成统计条件组合的表单,具体如图5和图6所示:
统计结果的定制分为统计结果表和统计结果图的定制以及详细统计结果表的定制。
(1)统计结果表和统计结果图的定制
通过对用户的需求进行分析,笔者认为对统计结果表和统计结果图的定制需要比统计条件组合的定制更加灵活;因为用户通常在选定一组统计条件组合后,会进行各种不同角度的统计,所以需要提供在同一组统计条件组合下生成多种统计结果的功能。
为了在满足以上需求的同时又能尽可能地简化用户的使用流程,需要把统计结果表和统计结果图的定制融入到统计条件设置界面中,将统计结果的定制作为统计条件设置的一部分来完成。用户不需要频繁地更换统计界面,只需要选择行、列数据集就可以得到不同角度的统计结果。行、列数据集与统计条件组合相同,用户可以得到统计条件组合表单中任意两个统计条件所构成的二维表,还可以通过设置统计条件来控制二维表的显示元素。此外,统计条件设置表单中还提供了统计结果图的选项,用户可以根据需要选择柱状图、饼图、线性图等,系统会根据用户的选择在生成统计结果的同时生成统计结果图,如图7所示:
(2)详细统计结果表的定制
详细统计结果是指统计结果中的一个数据的构成即这个数据指示的是哪些条目以及这些条目的元数据信息。CAS OpenIR描述一个条目可能需要几十个元数据,全部罗列出来是不现实的而且会妨碍用户查看那些他们关注的元数据信息。因此,仿照统计条件定制功能扩展详细统计结果显示项的定制功能。为管理员开放设置元数据是否为备选详细统计结果显示项的操作参数,用户可以从备选项中选择自己关注的元数据作为详细统计结果显示项,最后系统自动生成详细统计结果表。用户可以很清晰地查看自己需要的统计结果信息,如图8所示:
如图9所示,用户先在统计条件设置页面设置统计条件组合及统计结果表的格式和统计结果图的类型,点击“获取统计结果”,系统根据用户提供的统计条件组合及统计表结构生成统计结果表,然后根据统计结果表以及用户选择的统计结果图类型生成统计结果图,同时用户还可以将统计结果表导出为Excel格式进行保存。
可以看到,统计结果列表的格式与统计条件设置表单中行数据集和列数据集的定制结果相同,统计结果图的类型也与统计条件设置表单中的选择相匹配。
如图10所示,当点击统计结果表中的数据,界面在如图9所示的统计结果图的位置显示详细统计结果列表,详细统计结果列表的格式与图8中的设置相匹配。
本文所述CAS OpenIR知识资产统计部分的扩展功能是根据研究所实际使用后提供的需求设计开发的,目前已在中国科学院80多家研究所的机构知识库平台中使用,改进了前一版本中统计效率低、适用范围窄的不足。按照多维可定制的思路重构并设计开发,还通过使用一些如构建临时表等方法提高了统计的效率,引入Flex技术实现了统计结果图的同步获取,使CAS OpenIR的知识资产统计功能在适用范围、统计效率、操作灵活、界面友好等方面均获得了提高。
机构知识库的建设是一个长期的过程,随着数据量的不断增加、使用范围的扩大以及使用环境的变化,用户会继续提出更多的修改需求,而机构知识库本身也会随着该领域研究的深入有自身的更新需求。因此,CAS OpenIR团队会继续探索对该平台进行更多的改进和扩展。在知识资产的统计方面,已经准备或正在进行一些包括语义化管理、语义化的知识资产推荐以及知识地图的绘制等功能的尝试和研发,并在未来版本的CAS OpenIR中将有所体现。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|