轻量级书目本体关联数据建设实践*
郭振英1, 赵文兵2, 魏育辉1
1北京工业大学图书馆 北京 100124
2北京工业大学计算机学院 北京 100124
郭振英, ORCID: 0000-0002-4733-6869, E-mail: gzhy@bjut.edu.cn。
摘要
目的

高校图书馆馆藏书目本体关联数据库建设实践探索。【应用背景】以高校馆藏书目数据为基础, 进行关联数据发布和知识发现的尝试。

方法

从用户认知的角度出发, 研究相关书目本体的标准, 扩展社会网络元数据, 构建实用可操作的轻量级书目本体, 重新组织书目数据, 通过D2R工具发布为关联数据。

结果

以计算机学科实际馆藏数据进行书目关联数据化实验, 可以实现版本、语种、主题等元素的内部聚合及基于著者构建链接的外部发现。

结论

基于轻量级书目本体进行关联数据建设是可行、可操作的, 但书目规范缺失的实际状况导致聚合链接实现困难。

关键词: 轻量级; 书目本体; 关联数据
中图分类号:
Construction of Linked Data with Lightweight Book Bibliography Ontology
Guo Zhenying1, Zhao Wenbing2, Wei Yuhui1
1Beijing University of Technology Library, Beijing 100124, China
2College of Computer Science, Beijing University of Technology, Beijing 100124, China
Abstract

[Objective] Practice on construction of Linked Data of book bibliography data for college library. [Context] Try to publish bibliography data from college library as Linked Data to discover knowledge. [Methods] Construct a lightweight book bibliography Ontology with additional classes from social network of the most popular criterion in the view of users. Then reorganize bibliography data with Ontology, and publish Linked Data through the D2R server. [Results] Try to publish the computer subject bibliography data as Linked Data. Aggregate data through the version, languages, subject and link with the resource out of library through authorial links. [Conclusions] It is practicable that using the lightweight book bibliography Ontology to reorganize bibliography data and publish it into Linked Data through D2R. However, cataloging without authority controlling make it difficult to form the aggregated linkages based on author and title.

Keyword: Lightweight; Book; bibliography; Ontology; Linked; Data
1 引 言

作为语义网的主题之一, 关联数据(Linked Data)于2006年由Berners-Lee提出[1], 其后得到了广泛关注和长足发展, 推动了知识共享的世界化、全球化。对于图书馆而言, 利用关联数据可以帮助自身融入数据网络, 扩大资源范围, 强化与外界信息的共享与交换, 提升服务能力。斯坦福关联数据研讨会(2011年)报告中指出: 关联数据的建设是多方主动发布数据并且不断提高数据和关联质量的过程, 不可能一蹴而就[2]。作为关联数据发布者和消费者的图书馆[3], 有必要积极探索、开展关联数据的应用实践, 培育图书馆的关联数据环境, 立足用户需求, 从关联数据的角度定义和发现资源。本文通过构建轻量级书目本体, 对馆藏书目数据发布为关联数据进行尝试, 并初步探索利用关联数据实现知识发现。

2 需求及技术思路

馆藏书目数据是图书馆的重要资源, 也是图书馆开展服务的基础。目前, 书目数据采用基于MARC建立的一维线性组织形式, 不区分信息对象的实体层次和相互的关联关系, 语义化程度较低, 这是和语义网的发展方向相悖的。把馆藏书目数据发布为关联数据是对书目数据重新组织的过程, 也是馆藏书目融入语义网的重要环节。基于书目关系进行语义化组织和关联, 构建书目本体, 是对利用原有的书目数据进行语义组织、发布关联数据的前提。

描述书目数据的本体有很多, 影响较大的有BIBO[4]和FaBiO[5]。BIBO作为文档分类本体, 主要用于描述语义网中以 RDF形式存在的书目资源, 在继承扩展都柏林元数据等本体基础上, 基本涵盖了图书馆各类馆藏文献书目描述元数据。受益于覆盖文档格式的广泛性, BIBO 已被一些项目采纳, 例如Eprints[6], TalisAspire[7]和 Chronicling America[8]。FaBiO (FRBR-aligned Bibliographic Ontology)是基于书目记录功能需求(Functional Requirement for Bibliographic Records, FRBR)模型设计的, 用于描述语义网中与记录和出版有关的记录或实体。和 BIBO相比, FaBiO 描述的对象更加广泛, 在 2013 年 3月发布的1.7.3 版本中, 共定义了 256 个类、27 个对象属性和 63 个数据属性, 应用起来也更为复杂。国家科技图书文献中心也提出适应我国图书情报工作的书目本体构建, 包括18个类、31个对象属性、379个数据属性[9]。这些书目本体内容庞杂, 并不利于实际应用。因此结合应用设计书目本体的实践多有开展, 如采用MODS[10]作为模型, 描述的书目本体共定义40个类和62个属性[11]; 对大型文献数字化项目中书目本体的构建研究, 涉及8大类, 类目70项[12]

本文立足于图书馆的应用背景, 从用户角度出发, 析出易于理解并已有共识的图书书目元素, 简化FRBR的实体层次, 结合当前已经实现的OPAC通过各类索引、分面技术、外部API等对馆藏书目进行内部揭示, 外部扩展发现内容涉及到的元素, 考虑社会化网络元数据的纳入, 构建一种易于操作的轻量级书目本体, 并利用该本体重新组织馆藏书目数据, 快速实现馆藏书目的关联数据化应用, 后续根据应用需求, 不断完善书目本体, 逐步建立标准规范实用的书目本体。

3 轻量级书目本体构建

遵循本体设计的明晰性、一致性、可扩展性、最小编码和最小承诺五原则, 本文从书目本体核心元素入手, 逐步进行完善。

3.1 核心元素的选择

在基于E-R设计的图书馆自动化集成系统里, 书目详细信息都是以MARC格式存储和编辑的, 由于MARC格式不利于检索, 一般都设计了简明书目记录表。简明书目记录表提取了常用书目元素, 也是最基本的书目元素。

OPAC是图书馆面向用户揭示书目信息的窗口, 一般采用分面技术、外部API等对馆藏书目进行详细

展示。OPAC揭示的元素为读者所熟悉[13], 应尽量采纳到书目本体中来, 如表1所示:

表1 OPAC揭示的关键书目元素
3.2 类别及属性设计

FRBR将书目分为“ 作品” 、“ 内容表达” 、“ 载体表现” 、“ 单件” 4个层次类别, 表征书目内容特征和外部特征核心部分[14], 为书目类别的必选项。其中“ 作品” 、“ 载体表现” 、“ 单件” 分别与规范记录、书目记录、馆藏记录具有映射关系。考虑到用户认知和简化层次, 书目

本体可简化为三个层次: “ 作品” 、“ 载体表现” 、“ 单件” 。

主题规范属于“ 主题” 类, 著者规范属于“ 个人” 类, 出版社、馆藏单位属于“ 团体” 类, “ 团体” 、“ 主题” 、“ 个人” 三类是书目本体不可或缺的类别设置。

WorldCat[15]应用社会化元数据的经验揭示: 用户贡献的社会化信息非常重要, 有助于发现有用的信息元素。“ 标签” 、“ 用户评论” 作为社会化元数据的重要信息元素, 可以为用户甄选书目提供重要线索, 也已被OPAC采纳, 如外部豆瓣评论通过API方式嵌入详细书目信息。本文将“ 标签” 、“ 用户评论” 加入书目本体, 增加标签类、用户评论类, 扩展书目相关的动态评价信息。以上8个类是轻量级书目本体的核心基础, 具体属性设计如表2所示:

表2 轻量级书目本体主要类别
3.3 类间关系

本应用本体中的基础类采用的是简化版本的FRBR, “ 作品” 、“ 载体表现” 、“ 单件” 三个类层次对应实例分别为某作品、某具体书目、某单册图书, 其关系描述为: “ 作品” 由“ 载体表现” 即图书的书目信息体现, “ 载体表现” 有某个实例“ 单件” ; “ 作品” 被“ 个人” 创作, “ 载体表现” 被“ 团体” 某出版社出版, “ 作品” 有多个“ 主题” , 某馆藏机构“ 团体” 拥有多个单册图书“ 单件” , “ 载体表现” 即某书目有多个“ 标签” 和“ 用户评论” 。类关系如图1所示:

图1 轻量级书目本体的基本类及关系

4 关联数据发布
4.1 数据组织模式的转换

依据轻量级书目本体, 重新组织书目数据, 为每个基本类建立相应的二维表, 并从图书馆自动化集成系统相应的表中提取数据。利用开源软件D2R将关系数据库中的二维表转换为RDF三元组, 实现书目关联数据化[16]

构建数据库Schema “ U_LINKDATA” , 图2作为依据书目本体重组的数据组织方案, “ 载体表达” 类对应书目信息, 构建表MANIFESTATIONINFO, “ 单件” 类对应图书的册信息, 构建表ITEMINFO, 很容易从图书馆自动化集成系统中抽取书目信息和册信息, “ 作品” 类是书目数据的抽象和聚合信息, 构建表WORKINFO, 按照题名+著者规范建立。规范的缺失和不同MARC格式的著录差异, 是本次数据组织中的难点, 通过中西文MARC格式提取统一题名、著者, 并经过程序纠正等方式生成统一的作品数据, 选择使用率较高的TP3类别中西文MARC共58 304条, 聚合作品类的规范记录共55 444条, 并与单件记录(208 921条)建立关联关系。

图2 基于本体类构建的书目数据重组方案

4.2 基于D2R的关联数据发布

D2RServer提供了基于映射文件将数据库发布成RDF三元组的机制, 构建D2R环境, 下载与目前使用的数据库版本相匹配的驱动(如数据库服务器Oracle11g 11.1.0.7上JDBC的驱动文件ojdbc6.jar), 将其 jar 文件放在 D2R Server 的 lib 目录下面, 通过命令生成映射文件启动D2R Server, 映射文件如下:

linkdata-mapping.ttl:

c:\generate-mapping -u u_linkdata -p password -d oracle.jdbc.
OracleDriver -o linkdata-mapping.ttl jdbc:oracle:thin: @serverIP:
1521: Instancename

通过SPARQL Endpoint服务入口检验本体组织效果, 如图3所示, 以“ thinking in java” 为查询条件, 共命中8条书目记录, 将原来OPAC的检索结果进行合并, 合并了不同MARC格式数据, 更简洁清晰。通过FILTER增加语种、版本等条件, 可以得到更确切的结果。

图3 重组后馆藏数据SPARQL查询

4.3 关联数据内部信息聚合和外部知识发现

建立发布关联数据的目标是利用关联数据进行内部信息聚合和外部知识发现。

通过建立基于本体的关联数据重新组织书目数据, 实现内部聚合, 例如可以揭示同一主题、同一著者、同一版本、同一语种等的本馆馆藏。这些发现是非常有价值的。尤其是不同MARC格式的版本聚合, 上述例子中, 检索出第4版本的“ thinking in java” 共两种, 合并了OPAC中文文献和西文文献不同页面的揭示。

当前图书馆OPAC已经实现与外部相关网站(如当当网、卓越网、百度图书、豆瓣书评等)的链接。关联数据建设很大部分的知识发现依赖于外部信息集的关联, 尤其是已发布的关联数据, 例如, DBpedia(维基百科的RDF数据集版本), 通过“ owl: sameAs” 等关系可建立和DBpedia的链接, 实现对著者的进一步揭示。在DBpedia 关联数据集中对人名URI命名规则是“ http://dbpedia.org/page/人名” , 其中, 中国人人名是以“ _” 分隔的姓名拼音。对于“ thinking in java” 的作者Bruce Eckel的URI为“ http://dbpedia.org/page/Bruce_ Eckel” , 建立URIs相关属性相似性链接, 根据作者名称构建链接指向DBpedia的著者信息, 可进行外部著者信息的发现。

名称规范对于信息聚合意义重大, 由于人力财力等原因, 和其他多数图书馆一样, 本馆没有启动规范控制进行编目, 这对按照主题、著者、出版单位等进行聚类和链接产生严重影响, 尤其是利用属性相似性连接构建链接造成困难。

4.4 标签和书评元素与社会化网络的融合

在书目本体中增加社会化网络元数据标签和书评, 可以链接到相关的关联数据集, 通过合理分类管理, 建立读者兴趣小组, 类似朋友圈, 相互可以浏览推荐或借阅的图书列表, 建立多层面符合读者个性化服务的机制。

当前OPAC提供了标签和书评功能, 以北京工业大学图书馆为例, 自2011年7月启动该功能后, 截至2014年7月28日, 书评记录232条, 对于拥有60余万种图书的图书馆而言, 可以利用的信息微不足道, 突显图书馆对于用户的黏着力不足。所以, 构建标签和书评类, 把内部外部的标签和书评信息集成展现给用户, 有效丰富了读者选择图书的信息依据, 增加读者撰写书评的机会。

5 结 语

为实现馆藏书目关联数据化, 研究相关标准规范, 融合社会化网络元素, 设计一个轻量级书目本体, 并进行关联数据构建发布和知识发现实践。馆藏书目本体的标准化、规范化是关联数据实现的前提, 需要不断实践来完善和改进, 尤其需要采纳用户贡献的信息, 以适应从信息聚合到用户聚合的发展历程。

当前国内高校图书馆OPAC揭示建立在商业自动化系统基础之上, 个别图书馆的关联数据实践不仅在构建上因规范缺失困难重重, 在聚合实施上也要考虑和当前系统的契合, 应用前景有限, 基于关联数据构建图书馆自动化系统成为图书馆应用研究的方向之一。

参考文献
[1] Berners-Lee T. Linked Data-Design Issues [EB/OL]. [2014- 07-28]. http://www.w3.org/DesignIssues/LinkedData.html. [本文引用:1]
[2] Linked Data for Libraries, Museums, and Archives: Survey and Workshop Report [EB/OL]. [2014-12-14]. http://www.clir.org/pubs/abstract/reports/pub152. [本文引用:1]
[3] 陈定权, 卢玉红. 图书馆在关联数据运动中的角色解析[J]. 图书馆建设, 2014(3): 17-21.
(Chen Dingquan, Lu Yuhong. Analysis on Roles of Libraries in the Linked Data Movement[J]. Library Development, 2014(3): 17-21. ) [本文引用:1]
[4] Bibliographic Ontology Specification [EB/OL]. [2014-12- 14]. http://bibliontology.com/. [本文引用:1]
[5] FaBiO, the FRBR-aligned Bibliographic Ontology [EB/OL]. [2014-12-14]. http://purl.org/spar/fabio/. [本文引用:1]
[6] EPrints [EB/OL]. [2014-12-14]. http://www.eprints.org/. [本文引用:1]
[7] TalisAspire [EB/OL]. [2014-12-14]. http://www.ukfederation.org.uk/content/Services/2011-05-03-talis. [本文引用:1]
[8] Chronicling America [EB/OL]. [2014-12-14]. http://chroniclingamerica.loc.gov/. [本文引用:1]
[9] 白海燕, 乔晓东. 基于本体和关联数据的书目组织语义化研究[J]. 现代图书情报技术, 2010(9): 18-27.
(Bai Haiyan, Qiao Xiaodong. Study of Semantic Bibliography base on Ontology and Linked Data[J]. New Technology of Library and Information Service, 2010(9): 18-27. ) [本文引用:1]
[10] Metadata Object Description Schema [EB/OL]. [2014-12-14]. http://www.loc.gov/standards/mods/mods-schemas.html. [本文引用:1]
[11] 虞为, 陈俊鹏. 基于MapReduce的书目数据关联匹配研究[J]. 现代图书情报技术, 2013(9): 15-22.
(Yu Wei, Chen Junpeng. Linking and Mapping of Library Catalogue Data Based on MapReduce[J]. New Technology of Library and Information Service, 2013(9): 15-22. ) [本文引用:1]
[12] 宋琳琳, 李海涛. 大型文献数字化项目图书书目本体的构建研究[J]. 图书馆建设, 2013(12): 19-25.
(Song Linlin, Li Haitao. Research on the Construction of the Book Bibliography Ontology of Huge Literature Digitization Projects[J]. Library Development, 2013(12): 19-25. ) [本文引用:1]
[13] 北京工业大学图书馆馆藏目录[EB/OL]. [2014-07-31]. http: //libaleph. bjut. edu. cn: 8991/F.
( Beijing University of Technology Library OPAC [EB/OL]. [2014-07-31]. http://libaleph.bjut.edu.cn:8991/F [本文引用:1]
[14] FRBR [EB/OL]. [2014-07-28]. http://www.oclc.org/research/activities/frbr.html. [本文引用:1]
[15] WorldCat. org: The World’s Largest Library Catalog [EB/OL]. [2014-07-28]. https: //www. worldcat. org/. [本文引用:1]
[16] 夏翠娟. 关联数据的技术实现及案例[EB/OL]. [2013-11-05]. http: //conf. library. sh. cn/sites/default/files/LD的技术实现及案例_夏翠娟. pdf.
( Xia Cuijuan. Technology and Application of Linked Data [EB/OL]. [2013-11-05]. http://conf.library.sh.cn/sites/default/files/LD的技术实现及案例_夏翠娟.pdf [本文引用:1]