农业科学叙词表关联数据构建研究与实践
鲜国建, 赵瑞雪, 寇远涛, 朱亮, 张洁
中国农业科学院农业信息研究所 北京 100081
摘要

基于SKOS及SKOS-XL规范和模型,将CAT中的叙词及词间语义关系进行规范表达和关联描述,并与AGROVOC、NALT、EUROVOC和LCSH等几大知识组织体系在概念实例层面建立语义关联。同时,基于开源工具Virtuoso构建CAT关联数据发布系统,可提供CAT概念解析、浏览导航、SPARQL查询终端和RDF下载等关联数据服务。本研究有助于提高农业科学叙词表的可见性、获得性及与其他知识组织体系的互操作能力,并为将其应用于描述、组织和语义关联其他农业信息资源奠定重要基础。

关键词: 关联数据; 农业科学叙词表; SKOS; SKOS-XL; Virtuoso
Study and Practice on Converting and Publishing Chinese Agricultural Thesaurus as Linked Open Data
Xian Guojian, Zhao Ruixue, Kou Yuantao, Zhu Liang, Zhang Jie
Institute of Agricultural Information, Chinese Academy of Agricultural Sciences, Beijing 100081, China
Abstract

In this paper, the Chinese Agricultural Thesaurus (CAT) is expressed formally and described in a semantically linked way based on SKOS and SKOS-XL. CAT is also mapped and linked to other well-known knowledge organization system such as AGROVOC, NALT, EUROVOC and LCSH at individual level. In addition, a linked data publishing system of CAT is developed based on the open source tool Virtuoso, providing services such as HTTP URI dereference, CAT concepts browsing and navigation, SPARQL query endpoint and RDF Dumps. This study can advance the CAT’s visibility, accessibility and interoperability with other systems, and lay fundamental base to describe, organize and semantically link other agricultural information resources as well.

Keyword: Linked data; Chinese Agricultural Thesaurus; SKOS; SKOS-XL; Virtuoso
1 引 言

关联数据是指在语义网中使用URI 和RDF发布、分享、连接各类数据、信息和知识[ 1],其最大的特点是将孤立数据关联起来。关联数据是解决海量信息因离散孤立、缺乏语义而难以被计算机智能处理这一难题的有效手段,也是实现对海量、异源、异构信息精细化揭示、深度整合和知识组织的有效途径。通过构建关联数据,可盘活各类存量信息资源。数据间建立的关联越丰富,数据则越有价值,数据的价值也就越能得以体现[ 2]

语义网络环境下,尤其是从传统文件网络向具有结构化和富含语义的数据网络演进过程中,传统知识组织系统(如叙词表、主题词表、分类法等)又重新获得人们的关注和重视,在组织管理、挖掘分析和开发利用海量信息资源实践中发挥日益重要作用。然而,作为规范描述和深度组织海量信息资源的知识组织系统其自身也需要与时俱进,为适应新的需求变化而不断推进其自身发展和进化,将知识组织系统发布为关联数据则是当前极为重要的工作。

农业科学叙词表(Chinese Agricultural Thesaurus,CAT),作为国内一部大型、综合性农业叙词表,共收录了包括农业、林业、生物等领域在内的6万多个叙词和非叙词,以及丰富的“用、代、属、分、参”等词间语义关系,曾为有效组织和利用我国的农业信息资源发挥了重要作用。近年来,针对CAT也开展了向本体转化[ 3]以及与AGROVOC叙词表建立映射等研究[ 4]。然而,与Berners-Lee[ 5]提出的五星等级评价标准对比,农业科学叙词表仅能获得两到三颗星,因为其还没有完全对外开放,也未提供便捷的获取和利用途径。因此,有必要应用关联数据的理念和技术方法,使农业科学叙词表变得更加开放、有用、可用和尽可能地被多用。本文将就CAT构建并发布为关联数据的相关内容进行探讨。

2 CAT基于SKOS和SKOS-XL的关联描述
2.1 SKOS与SKOS-XL

(1)简单知识组织系统(Simple Knowledge Organization System, SKOS)[ 6]是万维网联盟在2005年制定的规范标准,是以资源描述框架(RDF)为基础,为叙词表、分类法、主题词表、术语表等知识组织体系提供一套规范、灵活、简单、可扩展的描述转化机制,以便实现各类知识组织系统资源的共享和重用。

SKOS实质上是建立在RDF Schema基础之上,并进一步扩展了RDF Schema的描述能力,专门设计了一系列描述标签,试图以计算机可理解的方式来提供一个强大的知识结构描述框架,从而支撑语义网中各类知识的有效组织。SKOS由核心词汇(SKOS Core)、映射词汇(SKOS Mapping)和扩展词汇(SKOS Extensions)三部分组成。

(2)SKOS扩展标签(SKOS eXtension for Labels, SKOS-XL)是在SKOS基础上定义的可选扩展,该扩展为描述和关联概念标签提供了额外支持[ 7]。概念标签类定义为skosxl:Label,其每个实例都可以skosxl:literalForm和xml:lang来描述不同语种的RDF普通字符。通过skosxl:prefLabel、skosxl:altLabel和skosxl:hiddenLabel等标签属性将skosxl:Label的实例与SKOS概念建立关联,这与SKOS中的skos:prefLabel、skos:altLabel和skos:hiddenLabel属性相类似,只是更具灵活和可扩展的描述与关联能力。

2.2 国内外研究现状

国内外的图书情报界已开展了一系列关于知识组织系统基于SKOS进行描述转化的研究,如美国国会图书馆标题表(LCSH)[ 8]、荷兰视听档案通用词汇表(GTAA)[ 9]、医学主题词表(MeSH)[ 10]等。2009年,《杜威十进分类法》(简称DDC)以SKOS 格式发布[ 11],目前提供了前三级类目数据的开放下载,FAO也采用SKOS-XL格式将多语种农业叙词表AGROVOC发布为关联数据[ 12]。张士男等[ 13]提出了《中国科学院图书馆图书分类法》中类目、类号、关系、类目注释等的SKOS 转换。刘丽斌等[ 14]建立了《中国分类主题词表》的SKOS描述自动转换方案。目前大部分转换研究都是基于SKOS格式,只有AGROVOC叙词表采用了SKOS-XL标准。为了更加清晰地描述农业科学叙词表,本文将综合应用SKOS和SKOS-XL以更加灵活和可扩展的方式进行描述和转换。

2.3 CAT的语义关联描述

本文在利用SKOS模型将CAT进行了描述和转化的基础上,引入SKOS-XL进一步优化和调整CAT的语义关联描述框架。

(1)叙词向概念的转化

在将CAT向SKOS转换时,每个叙词都将被转化为SKOS的一个概念(Concept)。最为重要的是为每个概念赋予唯一且可网络解析的HTTP URI。借鉴Dodds等[ 15]总结的常见URI生成方式,在设计CAT概念唯一标识符时,继承应用了CAT中为每个叙词分配的稳定唯一编号term-code,使其成为了HTTP URI模板“http://lod.aginfra.cn/cat/concept/ {term-code}”的一部分,如概念“水稻”的唯一标识符为“http://lod.aginfra.cn/cat/concept/42359”,从而确保可直接通过稳定的HTTP URI来访问和解析CAT中各个概念。

(2)标签类及标签属性的应用

尽管使用SKOS提供的skos:prefLabel和skos:altLabel等标签属性就能描述更为详细的信息,但为了能以更清晰、更灵活、可扩展和可关联的机制来描述信息,本文采用了SKOS-XL中的标签类skosxl:Label和skosxl:prefLabel、skosxl:altLabel等标签属性。在定义CAT概念和其“代”的非叙词的skosxl:Label实例时,组合应用了skosxl:literalForm和xml:lang来描述不同中文名称及其对应英文翻译名称。与概念类似,这里也需要为每个标签类实例指定唯一标识符,本文遵循模式“http://lod.aginfra.cn/cat/label/xl_{lang}_{term-code}_{labelindex}”,其中“lang”是标签的语种标识(中文-zh,英文-en),“term-code”仍是其对应概念的编号,而“labelindex”是描述对应概念的标签序号,如优选标签的中文名称序号为1,英文译名为2, 而其“代”的第一个非叙词的中文名称为3,英文译名为4,依次累加。实例见4.1节。

(3)语义关系的转化

为更加有效地组织管理CAT中的概念及概念间关系,在转化过程中,将40个一级类目以集合skos:Collection进行了定义,并与各一级类目下的叙词通过skos:member建立了关联。为整个CAT定义了一个ConceptScheme,通过计算推理出了CAT的族首词概念(TopConcept )2 000多个,通过skos:topConceptOf和skos:hasTopConcept 在族首词概念与ConceptScheme建立了双向语义关联。

CAT中的“属、分、参”等语义关系类型仍采用skos:broader、skos:narrower和skos:related来分别进行转化,而“用、代”则通过前面的标签符和标签属性,将非叙词与叙词概念建立了关联。利用SKOS及SKOS-XL的数据描述模型,将CAT中叙词“水稻”知识片断进行关联描述如图1所示:

图1 CAT基于SKOS和SKOS-XL的关联描述框图

3 与其他知识组织系统的映射互联

关联数据的宗旨是尽可能多地在不同数据之间建立关联关系。农业科学叙词表作为组织和应用信息资源的基础工具,则更应与国内外其他知识组织体系建立广泛、丰富的语义关联,为进一步发现、整合、共享和利用各类农业科技资源奠定坚实基础。

3.1 几大开放知识组织系统介绍

(1)AGROVOC是由FAO不断维护更新的一个涵盖农业、林业、渔业、食品及相关领域的多语种叙词表[ 16],已收录3万多个概念,每个概念都用多达22种语言进行描述,并与国际上多个词表建立了语义关联。目前,AGROVOC已基于RDF/SKOS-XL格式发布了关联数据版本,提供了人机都可访问的网络入口,也可将RDF文档下载到本地。

(2)EUROVOC是由欧盟管理维护的多语种叙词表[ 17],最新的4.4版本中的语种多达22种,包括德语、法语、英语、爱沙尼亚语、希腊语、保加利亚语、西班牙语、捷克语、丹麦语、意大利语等,收录概念6 883个,主要用于跨语言检索的词表。该词表也提供了关联数据版本的浏览和SKOS/XML文件下载(面向注册用户)。

(3)NALT是由美国国家农业图书馆等机构编制的农业叙词表,主要收录了农业、生物及相关领域的9万多个术语和4万多词间关系,提供了英语和西班牙语两个语种版本,可通过17个主题分类进行浏览。从2002年开始,在每年1月都会对词表进行版本更新。该词表在2011年就将其发布为开放的关联数据,可以以XML、RDF-SKOS等格式进行免费下载[ 18]

(4)LCSH 是美国国会图书馆以本馆的字典式目录为基础,以标题语言编制的美国国会图书馆主题词表[ 19]。LCSH是世界上使用时间最长、范围最广、规模最大、影响最大的一部综合性标题表。从2006年开始,LCSH就开始研究从MARC向SKOS编码的转换,在2011年开始提供关联数据在线检索、浏览、解析和下载(RDF/XML、Turtle和N-triples等格式)服务。

3.2 建立映射互联的描述框架

从前面可知,国际上几大有影响、应用广泛的知识组织体系都已经发布了关联数据,而且一般都提供了多语种版本。如果将CAT/SKOS与已开放的知识组织体系关联数据建立稳定的映射和关联,将对共享世界范围内的农业信息资源奠定重要语义基础。本节基于SKOS提供的映射词汇,仍以概念“水稻”为例,构建了 CAT与上述几大关联数据集的映射互联语义描述框架如图2所示。本文只重点考虑了知识组织系统间精确的匹配关系(skos:exactMatch),而上、下位匹配(skos:narrowMatch和skos:broaderMatch)、相近或相关匹配则需更多技术手段和人力投入。

图2 CAT与其他知识组织体系的映射描述框架

3.3 建立实例映射的基本方法

将农业科学叙词表中的概念实例与其他知识组织体系建立映射时,一般可以采用两种方式:

(1)对已提供免费下载的知识组织体系,可将其SKOS/XML或Turtle等格式文件下载到本地(如NALT和LCSH),再基于CAT/SKOS与目标词表中的skosxl:preLabel或skosxl:altLabel进行精确匹配,可开发对应的映射工具来自动建立两个系统中概念的关联关系;

(2)对未提供关联数据下载服务的词表,可以人工方式,在其提供的网络检索页面或SPARQL查询终端上检索CAT/SKOS中的概念,如果有命中记录,则将检索结果与CAT/SKOS建立关联。

本文首先下载了AGROVOC、NALT、LCSH和EUROVOC等关联数据,编制自动解析和批量映射工具,提取各词表中的概念名称和HTTP URIs,通过带中文或英文语言标记的优选标签或可选标签的精确匹配,构建了CAT中6万多个概念与其他知识组织体系中概念实例的关联映射如表1所示:

表1 CAT与其他知识组织体系匹配映射结果
表1可以看出,概念实例间能够精确匹配的比例较低,要实现概念间上、下位匹配、相近或相关匹配等更精准映射互联,则还需知识组织专家和领域专家通过大量人工操作,共同努力才能完成相关映射和审核工作。

4 CAT关联数据构建与发布
4.1 CAT向SKOS的批量转化

前面对CAT中叙词及词间关系,以及与其他知识组织体系的映射关联,通过SKOS和SKOS-XL描述框架进行了表达,为实现将CAT中6万多条叙词、非叙词,13万余条词间关系,以及2.5万多条词表间映射关系,自动批量转化为RDF文档,本文开发设计了自动批量转化工具,如图3所示:

图3 农业科学叙词表向CAT/SKOS的批量转化

经过批量转化,CAT中叙词概念“水稻”及与其他知识组织体系的映射结果,如以下RDF/XML片断所示:

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:skos="http://www.w3.org/2004/02/skos/core#"

xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:dcterms="http://purl.org/dc/terms/">

<skos:ConceptScheme rdf:about="http://lod.aginfra.cn/cat">

<skos:prefLabel xml:lang="zh">农业科学叙词表</skos:prefLabel>

<skos:prefLabel xml:lang="en">Chinese Agricultural Thesaurus(CAT)</skos:prefLabel>

<dc:description>This RDF file is the SKOS and SKOS-XL version of Chinese Agricultural Thesaurus(CAT)</dc:description>

<dc:creator>中国农业科学院农业信息研究所(Agricultural Information Institute of CAAS)</dc:creator>

<dc:format>rdf</dc:format>

<dc:language>zh, en</dc:language>

<skos:hasTopConcept rdf:resource="http://lod.aginfra.cn/cat/concept/1924" />

……

<skosxl:Label rdf:about="http://lod.aginfra.cn/cat/label/xl_zh_42359_1">

<skosxl:literalForm xml:lang="zh">水稻</skosxl:literalForm>

</skosxl:Label>

<skosxl:Label rdf:about="http://lod.aginfra.cn/cat/label/xl_en_42359_2">

<skosxl:literalForm xml:lang="en">Rice</skosxl:literalForm>

</skosxl:Label>

<skos:Concept rdf:about="http://lod.aginfra.cn/cat/concept/42359">

<skos:inScheme rdf:resource="http://lod.aginfra.cn/cat"/>

<skosxl:prefLabel rdf:resource="http://lod.aginfra.cn/cat/label/xl_zh_42359_1"/>

<skosxl:prefLabel rdf:resource="http://lod.aginfra.cn/cat/label/xl_en_42359_2"/>

<skos:inScheme rdf:resource="http://lod.aginfra.cn/cat"/>

<skos:inScheme rdf:resource="http://lod.aginfra.cn/cat/category/60"/>

<skos:broader rdf:resource="http://lod.aginfra.cn/cat/concept/8373"/>

<skos:narrower rdf:resource="http://lod.aginfra.cn/cat/concept/23901"/>

<skos:narrower rdf:resource="http://lod.aginfra.cn/cat/concept/48926"/>

<skos:related rdf:resource="http://lod.aginfra.cn/cat/concept/43731"/>

<skos:exactMatch rdf:resource="http://aims.fao.org/aos/agrovoc/c_6599"/>

<skos:exactMatch rdf:resource="http://eurovoc.europa.eu/3732"/>

<skos:exactMatch rdf:resource=" http://id.loc.gov/authorities/sh85113862#concept"/>

<skos:exactMatch rdf:resource="http://lod.nal.usda.gov/nalt/56293"/>

……

</skos:Concept>

</rdf:RDF>

4.2 基于Virtuoso的CAT关联数据服务平台构建

Virtuoso作为企业级的语义数据库一体化解决方案,在其数据库基础上可支持关联数据发布的同时,也支持将外部以RDF规范描述的三元组数据加载到内置数据库中,支持大规模RDF三元组的高效存储、索引和检索[ 20]。Virtuoso的一个重要特性就是可充当关联数据服务器,支持使用SPARQL语言进行RDF数据的高效查询,也可对关联数据进行发布、浏览和导航,本文将基于这部分功能进行二次开发。

将完成格式转换和语义映射的CAT关联数据RDF文档加载到Virtuoso自带的数据库中。为在Virtuoso有效管理和查找浏览CAT信息,在导入该RDF文件时,明确指定该文件中RDF三元组(Triples)所属的图Graph IRI(http://lod.aginfra.cn/cat)。通过Virtuoso统计,CAT完成转换后RDF三元组已超过60万个。笔者基于Virtuoso进行了二次开发,构建了CAT开放关联数据服务平台。该平台将CAT发布为可公开访问的关联数据,提供了CAT的概念解析、CAT概念及概念间语义关系浏览导航、单个概念RDF多种格式下载和SPARQL查询终端,如图4所示:

图4 CAT关联数据发布

5 结 语

本文利用SKOS及SKOS-XL描述模型,将CAT中的叙词及词间语义关系进行了规范表达和关联描述,并与国际上广泛使用的AGROVOC、NALT、EUROVOC和LCSH等几大知识组织体系在概念实例层面分别建立了语义关联关系。同时,基于开源工具Virtuoso进行了二次开发,完成了CAT关联数据发布系统构建,提供了CAT概念解析、浏览、查询和下载等关联数据常规服务。本研究将为提高农业科学叙词表的可见性、获得性及与其他知识组织体系的互操作能力,以及将其用于描述、组织和语义关联其他信息资源奠定重要基础。关联数据版本的CAT在知识链接和知识组织等方面的应用还有待进一步深入研究与实践。

参考文献
[1] Bizer C, Heath T, Berners-Lee T. Linked Data - The Story So Far[J]. International Journal on Semantic Web and Information Systems, 2009, 53): 1-22. [本文引用:1] [JCR: 0.25]
[2] Bizer C, Cyganiak R, Heath T, et al. How to Publish Linked Data on the Web[EB/OL]. (2007-07-20). [2013-03-10]. http://sites.wiwiss.fu-berlin.de/suhl/bizer/pub/LinkedDataTutorial/20070727. [本文引用:1]
[3] 常春. Ontology在农业信息管理中的构建和转化[D]. 北京: 中国农业科学院研究生院, 2004. (Chang Chun. Construction and Conversion of Ontology in Agricultural Information Management[D]. Beijing: Graduate School of Chinese Academy of Agricultural Sciences, 2004. ) [本文引用:1]
[4] Liang M, Sini M, Chang C, et al. The Mapping Schema from Chinese Agricultural Thesaurus to AGROVOC [EB/OL]. [2012-06-18]. ftp://ftp.fao.org/docrep/fao/008/af241e/af241e00.pdf. [本文引用:1]
[5] Berners-Lee T. Linked Data - Design Issues [EB/OL]. (2009-06-18). [2012-06-20]. http://www.w3.org/DesignIssues/LinkedData.html. [本文引用:1]
[6] Miles A, Bechhofer S. SKOS Simple Knowledge Organization System Reference [EB/OL]. (2009-08-18). [2013-08-08]. http://www.w3.org/TR/2009/REC-skos-reference-20090818/. [本文引用:1]
[7] Miles A, Bechhofer S. SKOS Simple Knowledge Organization System eXtension for Labels (SKOS-XL) Namespace Document [EB/OL]. (2009-08-18). [2013-08-08]. http://www.w3.org/TR/skos-reference/skos-xl.html. [本文引用:1]
[8] Summers E, Isacc A, Redding C, et al. LCSH, SKOS and Linked Data[C]. In: Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications, Berlin, Germany. 2008. [本文引用:1]
[9] Resulting RDF: gtaa/GTAAinstancesSKOSv7. rdf[EB/OL]. [2012-10-03]. http://thesauri.cs.vu.nl/eswc06/gtaa/GTAAinstancesSKOSv7.rdf. [本文引用:1]
[10] MeshToSKOS [EB/OL]. [2012-10-09]. http://code.google.com/p/hive-mrc/wiki/MeshToSKOS. [本文引用:1]
[11] Dewey Decimal Classification-Linked Data[EB/OL]. [2012-07-03]. http://dewey.info. [本文引用:1]
[12] Caracciolo C, Stellato A, Morshed A, et al. The AGROVOC Linked Dataset[J]. Semantic Web, 2013, 43): 341-348. [本文引用:1] [JCR: 1.231]
[13] 张士男, 宋文. 《科图法》SKOS 描述方案设计[J]. 现代图书情报技术, 20106): 7-11. (Zhang Shinan, Song Wen. Description Scheme of LASC in SKOS[J]. New Technology of Library and Information Service, 20106): 7-11. ) [本文引用:1] [CJCR: 1.073]
[14] 刘丽斌, 张寿华, 濮德敏, 等. 《中国分类主题词表》的SKOS描述自动转换研究[J]. 中国图书馆学报, 2009, 356): 56-60. (Liu Libin, Zhang Shouhua, Pu Demin, et al. Automatic Transformation of Classified Chinese Thesaurus (CCT) Description with SKOS[J]. Journal of Library Science in China, 2009, 356): 56-60. ) [本文引用:1] [CJCR: 2.697]
[15] Dodds L, Davis I. L inked Data Patterns: A Pattern Catalogue for Modeling, Publishing, and Consuming Linked Data[EB/OL]. (2012-05-31). [2013-03-29]. http://patterns.dataincubator.org/book/linked-data-patterns.pdf. [本文引用:1]
[16] AGROVOC Linked Open Data [EB/OL]. (2013-05-27). [2013-08-08]. http://aims.fao.org/standards/agrovoc/linked-open-data. [本文引用:1]
[17] EuroVoc, the EU’s Multilingual Thesaurus [EB/OL]. (2012-12-18). [2013-08-08]. http://eurovoc.europa.eu/drupal/. [本文引用:1]
[18] National Agricultural Library’s Linked Open Data Makes Connections in Agricultural Information [EB/OL]. (2011-10-31). [2013-08-08]. http://www.nal.usda.gov/news/NALT_LOD.shtml. [本文引用:1]
[19] Library of Congress Subject Headings [EB/OL]. (2011-04-26). [2013-08-08]. http://id.loc.gov/authorities/subjects.html. [本文引用:1]
[20] Virtuoso Open-Source Edition [EB/OL]. (2013-08-05). [2013-08-08]. http://openlinksw.com/dataspace/doc/dav/wiki/Main/. [本文引用:1]