基于CSSCI本体的知识检索服务平台构建及应用
王昊, 苏新宁
南京大学信息管理系 南京 210093
摘要

现有的CSSCI信息服务系统只能提供单一、线性的检索功能,检索效果不佳,主要原因在于后台数据组织的不合理。为此,提出使用基于本体的知识服务平台代替现有CSSCI检索服务系统的解决方案,提供知识层次的服务,以改善用户的检索环境。在提出基于本体信息检索系统一般模式的基础上,设计一个实用的基于CSSCI_Onto的知识服务平台KRSP_CSSCI_Onto,对该平台的基本功能和系统框架进行探讨,并据此开发一个试验性的知识检索系统,详细阐述本体在知识检索服务中的具体应用,包括用户检索式的语义扩展,查询结果的关联知识推荐,基于学术资源网络模型的知识导航以及基于规则库的知识关系检索等。

关键词: CSSCI本体; 学术资源网络模型; 知识检索; 语义关联推荐; 蕴含推理
中图分类号:G354
Services Platform for Knowledge Retrieval Based on CSSCI_Onto
Wang Hao, Su Xinning
Department of Information Management, Nanjing University, Nanjing 210093,China
Abstract

The CSSCI information services system can only provide single and linear retrieval, and the retrieval effect is not very good. The main reason lies in the unreasonable data organization background. Therefore, the authors put forward the solution which uses knowledge services platform based on Ontology instead of the existing CSSCI information services system, and provide the services in the level of knowledge, so that to improve the retrieval environment. The paper proposes a general model of information retrieval system based on Ontology, designs a practical knowledge services platform named KRSP_CSSCI_Onto, and gives the basic functions and system framework of the platform. An experimental knowledge retrieval system is developed hereby, and the applications of Ontology in knowledge retrieval services is expounded in detail, including semantic extension of search expression, related knowledge recommendation of query results, knowledge navigation based academic resource networks model and knowledge relationships retrieval based rule library.

Keyword: CSSCI Ontology; Academic resources networks model; Knowledge retrieval; Semantic association recommendation; Implication reasoning
1 引 言

中国社会科学引文索引(简称CSSCI),每年收录400-500种人文社科类精品期刊的论文及其相关学术资源,以提供信息检索服务。现有的CSSCI检索平台仅能通过元数据检索的方式实现对来源文献和被引文献的查询[ 1],检索方式和对象都较为单一,既无法利用学术资源间存在的显性或隐性语义关系实现关联推荐,也不能对其他重要的学术资源知识进行相关查询。究其主要原因,是该平台采用了面向结构的后台数据组织方式,各种资源只是被简单地堆放在一起,相互之间的语义关系没有得到充分表现。随着语义网(Semantic Web)[ 2]概念的提出,作为知识组织与描述基础的本体机制得到了充分的发展。以本体为核心的语义检索开始取代传统的关键字检索,成为信息检索领域研究的主要方向[ 3],产生了一些著名的检索平台,如KIM[ 4]、FindUR[ 5]、基于历史领域本体的历史资源检索系统等[ 6]

随着CSSCI收录资源的不断扩充,其所蕴含的知识也越来越丰富。现有的以线性信息组织方式为基础的单一资源检索服务模式无法满足用户日益增长的知识服务需求。为此,本文试图将面向对象的本体机制引入到CSSCI知识组织中,充分挖掘各种学术资源之间的语义关联,形成学术资源网络模型;在此基础上,构建CSSCI知识检索服务平台(Knowledge Retrieval Services Platform based CSSCI Ontology,KRSP_CSSCI_Onto),利用本体中蕴含的知识间语义关系提供更好的检索服务,包括关联推荐、知识导航、关系推理等。

2 面向知识服务的CSSCI本体及其应用

笔者收集了CSSCI(2000-2006)共7年的数据及其元数据结构,作为CSSCI Ontology(简称CSSCI_Onto)的来源数据。本体构建的基本思路如下:

(1)从来源数据中提取出学术资源概念集合(如主题、文献、期刊、学科等)和概念间关系(包括分类关系和非分类语义关系),建立本体概念模型,实现对CSSCI学术资源的抽象描述。CSSCI_Onto概念模型包括三层概念层次结构,共39个本体类,336个属性[ 7]

(2)在概念模型的指导下,对CSSCI(2000-2006)数据进行语义标注,提取知识元及其关系,将各类学术资源实例关联在一起,形成学术资源知识地图,其中包括552 566个主题,504 021个来源文献,558种期刊,25个学科以及215 942位学者,89 884个部门机构实例等[ 8]

(3)基于逻辑推理理论建立蕴含推理规则,用于扩充本体知识库中非显式存在的学术资源间语义关联,例如学者之间的同被引关系可以根据论文同被引关系推理获得,而不需要固化在本体知识库中。

概念库、实例库和规则库构成了完整的CSSCI_Onto知识库,从而实现了对CSSCI学术资源及其间语义关联的统一、明确和规范的描述。

CSSCI_Onto可用于提供知识服务。依据CSSCI_Onto固有的显性知识以及通过对显性知识的挖掘而发现的隐含知识,实现科学评价和学术分析,包括挖掘学术资源间二元和多元关联[ 9],探测各学科研究热点以及多学科合作热点[ 10],分析学科热点的发展趋势等;以CSSCI_Onto为数据支持开发知识检索服务平台,以满足用户查询本体中各类知识的需求,具体包括对用户检索条件和检索结果的关联推荐,基于学术资源关联的导航式检索以及对学术资源之间关系的蕴含推理检索等。本文重点探讨基于本体的知识检索服务平台的构建及应用。

3 基于CSSCI_Onto的知识检索服务平台构建

在总结基于本体信息检索系统的一般模型的基础上,结合CSSCI知识服务的特点和功能要求,构建了一个基于CSSCI_Onto的知识检索服务平台KRSP_CSSCI_Onto。

3.1 基于本体的信息检索系统的一般模型

基于本体的信息检索的基本思想是:在领域专家的帮助下,建立相关领域的本体概念模型;以此为指导,对收集的数据进行语义标注,并按规定格式存储在元数据库(如OWL文档等)中作为检索源;查询转换器依据本体知识库把用户的查询请求转换成指定的格式并实现扩展,进而在元数据库中匹配出符合条件的数据集合;最后将检索的结果经过处理后返回给用户。整个过程的关键是使用语义标注取代了传统信息检索中的关键字标引或主题标引(文本标引),包括检索资源和检索表达式的语义标注。

基于本体的信息检索系统的一般模型如图1所示。该模型包括5个模块:

图1 基于本体的信息检索系统的一般模型

(1)用户界面模块,实现与用户的交互,包括用户输入接口的设计和检索结果的返回。一般情况下,用户输入的约束条件越多、越精确,则表述的语义就越清楚,用户操作也相对复杂;反之,用户输入的约束条件越少,用户操作越简单,但系统需要花更多的精力来理解用户输入所表达的语义。根据用户输入约束条件的繁简,可将用户界面形式划分为基于复杂表单式的检索、基于查询词的检索和基于自然语言的检索[ 11]

(2)查询式语义标注模块,是指依据领域本体,将用户的检索表达式转化为系统能够理解的标准化的本体检索式(查询本体)。上文描述的三类用户输入都需要进行语义标引,区别在于:基于复杂表单式的检索中检索项和检索式之间是语义对应关系,语义标注在用户根据检索项输入检索式时即完成,也可以基于知识库对用户输入的检索式进行扩展和修正[ 12];而基于查询词的检索和基于自然语言的检索则需要由系统根据领域本体自动完成语义标引,其难度随检索式的自然化程度而变化,越接近自然语言,难度越大。由于自然语言处理技术的瓶颈,这两种方式目前多停留在实验阶段,但由于其极大地降低了用户构造查询式的能力要求,已经成为基于本体信息检索系统发展的趋势[ 13]

(3)领域本体构建模块,这里仅指概念模型的构建,即识别领域中的所有概念,并定义概念属性以建立概念之间的关系,如有必要还需建立逻辑推理规则(公理)以约束概念行为。

(4)检索资源的语义标引模块,是指在领域本体概念模型的指导下,将检索资源按照指定的格式进行组织和存储,建立语义索引。该过程实际上是本体概念模型在现实世界中的具体反映,也称为本体实例化。

(5)检索处理模块,查询本体通过检索代理与本体实例库中实例及其属性值进行相关性语义匹配,并返回相关的检索结果。由于本体中资源之间存在相关性,可以由系统自动或用户选择等方式返回与检索结果相关的其他信息。此外,为了给用户提供一个更加直观的展示效果,在该模块中可以增加信息可视化展示子模块,以图形化的方式丰富本体实例信息的展示。

综上所述,在基于本体的信息检索系统中,本体的作用主要表现在:借助本体概念模型,对检索资源进行语义标注,使资源充分表现出其内涵语义;利用本体描述的实例间关联,对用户检索式进行标准化,使其满足本体实例的格式,同时将查询本体的相关信息推荐给用户,帮助用户把未意识到的或未清晰表达的信息需求进一步显性化;依据本体中描述的实例间关联,对用户检索结果进行扩展或推荐等。

3.2 基于CSSCI_Onto的知识检索服务平台的系统框架

知识检索(Knowledge Retrieval),是指在知识组织的基础上,利用知识关联和概念语义检索,智能化地从知识库中检索出知识的过程[ 14]。其区别于信息检索的两个显著的特征在于:基于某种具有语义模型的知识组织体系;对检索资源进行了基于元数据或本体概念模型的语义标注,将其转化为知识。笔者建立了CSSCI本体概念模型,形成了具有语义模型的知识组织体系;并以此对CSSCI(2000-2006)的学术资源进行了语义标注,以面向对象形式组织CSSCI的学术知识。这两个条件的满足为构建知识检索服务平台和向用户提供学术资源知识服务奠定了基础。

KRSP_CSSCI_Onto是一个基于本体的支持多对象和对象关系检索的知识服务平台,可以实现用户检索式的引导式构建,具有检索结果关联推荐功能,能够可视化展示对象实例及其关系。图2描述了该平台的系统架构,整个知识服务平台分为三个模块。

图2 KRSP_CSSCI_Onto平台的系统架构

(1)用户检索界面

系统提供了两种用户检索方式,即分类导航和关键字查询方式。

①分类导航是由系统开发者根据用户可能存在的检索偏好或潜在的检索需求而预先设定好的检索表达式,用户可以在系统的