基于ISO 25964标准的叙词表编制系统模型与实现
梁健, 乔晓东, 朱礼军, 张运良
中国科学技术信息研究所 北京 100038
摘要

介绍叙词表编制相关标准,重点分析ISO 25964标准的叙词表数据模型,在此基础上设计叙词表编制系统模型,并实现系统的核心功能。该系统能够改变传统叙词表编制模式,适应网络环境下叙词表编制工作的需求,更好地支持叙词表的数据加工、更新及维护。

关键词: 叙词表; 叙词表编制; ISO; 25964; 数据模型
The Implementation and Model of Thesaurus Development System Based on ISO25964
Liang Jian, Qiao Xiaodong, Zhu Lijun, Zhang Yunliang
Institute of Scientific & Technical Information of China, Beijing 100038, China
Abstract

The paper presents related standards about thesaurus development and focuses on analyzing the thesaurus data model under the standard of ISO 25964. Based on the data model, the paper designs thesaurus development system model and implements the key functions. The system changes traditional working mode of thesaurus development. It can satisfy the requirement in network environment and make data processing, updating and maintenance more convenient.

Keyword: Thesaurus; Thesaurus; development; ISO; 25964; Data; model
1 引 言

早期叙词表编制类似软件开发的瀑布模型,从最初的规划、设计、组织人员进行编制、审核到最终发布,属于有组织、分阶段、高度集中的开发。如中国科学技术信息研究所和北京图书馆负责主持的我国第一部大型综合性叙词表《汉语叙词表》,分为社会科学、自然科学和附表三卷,共收录108 568个叙词,该表从1975年开始编制,经过近9 000人5年时间的工作才出版问世[ 1]。由此可见,编制叙词表是一项规模浩大的工程。遗憾的是,这样一部凝聚了无数人心血和智慧的词表如今越来越被人们所淡忘。究其原因,一方面由于《汉语叙词表》是纸质版本,数据更新的工作量和难度极大,导致内容上的滞后;另一方面随着信息技术和网络的发展,叙词表的应用情景发生变化,叙词表只有融入到计算机系统、网络环境中才会具有新的生命力。但叙词表编制系统并不意味着将纸面上的数据进行数字化加工这么简单,对叙词表的数据模型、业务流程、展现形式、管理机制等各方面都需要进行重新考虑和设计。其中最为基础和核心的部分是数据模型,它是叙词表的组织框架,支撑着叙词表的各种操作和应用,设计合理的数据模型对叙词表系统设计与开发、数据加工、维护以及应用至关重要。

2 叙词表编制相关标准及软件介绍

最早的叙词表编制标准是1974年ISO发布的《单语种叙词表编制导则》(ISO 2788),该标准于1986年修订更新[ 2],ISO还发布了与单语种叙词表对应的《多语种叙词表编制导则》(ISO 5964)[ 3]。美国叙词表编制标准为NISO发布的Z39.19,最新版本于2005年发布,名为《单语种受控词表的构建、格式及管理导则》[ 4]。英国叙词表编制标准为BS 5723和BS 6723,分别于1979年和1986年发布,二者内容与ISO 2788和ISO 5964一致。2000年英国标准协会BSI开始修订新标准,新标准名为《面向信息检索的结构化词表导则》(BS 8723),共分为5部分[ 5, 6, 7, 8, 9]。我国叙词表编制标准的研究和编撰工作起步较晚,直到20世纪90年代初才制定《汉语叙词表编制规则》(GB 13190-91)[ 10]和《文献多语种叙词表编制规则》(GB/T 15417-94)[ 11],且大部分内容都引自ISO 2788和ISO 5964。2007年ISO着手新标准的修订工作,新标准全称为《叙词表及与其他词表的互操作》(ISO 25964),由《ISO 25964-1:面向信息检索的叙词表》[ 12]和《ISO 25964-2:与其他词表的互操作》两部分组成。

目前,叙词表编制软件仍然以人工编表系统为主,Willpower信息管理咨询公司收集和整理了全世界近50种叙词表编制和编辑软件[ 13],这些软件大多基于ISO 2788以及Z39.19等较早的叙词表编制标准。杜慧萍对其中的Term Tree2000、MultiTes Pro2007、WebChoir TCS-10三种国外常用的叙词表编制软件进行考察,发现这些叙词表编制软件存在用户不能自定义叙词属性和词间关系、不能设置分面标记等不足,而国内主要是针对某一特定叙词表的集成词表软件,独立的叙词表编制系统比较少见[ 14]

本文设计和实现的叙词表编制系统以ISO 25964推荐的数据模型为参考,该数据模型是ISO工作组在BS 8723基础上经过多次讨论和修改的成果,设计比较合理,而且具有较强的扩展性,能够支持用户自定义叙词和概念属性、关系、设置分面等,ISO 25964数据模型也有较为详细的设计和描述文档,便于软件开发人员理解和实现。国内外目前尚未见基于该数据模型的叙词表编制系统。

3 数据模型

传统叙词表核心要素是叙词,数据对象之间各种关系都围绕叙词展开,包括正式叙词与非正式叙词之间的用代关系、正式叙词之间的属分和相关关系。BS 8723打破了传统叙词表的结构,将概念从词汇剥离出来,成为单独的数据对象,并确定了叙词表、概念、叙词三大基本对象和其他相关对象,对对象的属性、特征以及对象之间的关系进行详细描述。ISO 25964进一步完善了数据模型,增加了概念组、概念组标签和可定制的词汇/概念属性等,使得数据模型更加完备和具有扩展性,如图1所示[ 12] :

图1 ISO 25964叙词表数据模型

(1)叙 词

叙词(ThesaurusTerm)是一个抽象类,子类有正式叙词(PreferredTerm)、简单非正式叙词(SimpleNonPreferredTerm)和复杂非正式叙词(SplitNonPreferredTerm)。

(2)叙词之间的关系

叙词之间的关系包括用代关系(Equivalence)和用和关系(CompoundEquivalence)。其中,正式叙词与简单非正式叙词之间为“一对多”的用代关系;正式叙词与复杂非正式叙词之间为用和关系,它与用代关系类似,不同的是一个复杂非正式叙词至少对应两个正式叙词(用项)。

(3)概 念

概念是反映事物的思维单元,它需要通过名称来表示,在ISO 25964中,叙词被称为叙词概念(ThesaurusConcept)的标签(Label)。正式叙词和非正式叙词分别是概念的首选标签(PreferredLabel)和非首选标签(NonPreferredLabel)。在单语种叙词表中,概念与正式叙词之间为“一对一”的关系,多语种叙词表中存在一个概念对应多个不同语言的正式叙词;概念与非正式叙词之间为“一对多”的关系。

(4)概念之间的关系

传统叙词表中属分关系(HierachicalRelationship)和相关关系(AssociativeRelationship)属于词汇之间的关系,ISO 25964将这两种关系限定在概念之间。此外,概念之间还有顶层概念关系(TopLevelRelationship),表示在层级关系中,某个概念是另一概念最顶层的概念,类似于传统叙词表的族首词,主要是为了便于叙词的展示和数据的导出。

(5)叙词表

叙词表基本组成单位是概念,还包括叙词序列(ThesaurusArray)和概念组(ConceptGroup)。叙词序列和概念组实际上都是概念的集合,一个叙词序列包括属于同一概念层级上的所有兄弟节点,它由节点标签(NodeLabel)描述,叙词序列能够实现叙词表的层级分面;一个概念组包括了属于某一主题或领域的概念,主题或领域由概念组标签(ConceptGroupLabel)描述,概念组能够实现叙词表的领域或主题分类。

(6)注 释

注释主要是对叙词或概念进行说明或记录相关信息,包括范围注释(ScopeNote)、历史注释(HistroyNote)、定义(Definition)、编辑注释(EditorialNote)以及可定制的注释(CustomNote)。

(7)可定制的属性

数据模型中定义了叙词和概念的属性,但也可以根据叙词表实际开发需求自定义叙词属性(CustomTermAttribute)和概念属性(CustomConceptAttribute)。

4 整体设计

系统目标是开发基于Web环境的叙词表编制系统,实现数据加工-审核-发布的叙词表编制流程,支持多用户在线加工和审核,提供逻辑校验、权限管理、用户管理、日志管理、词表维护、词表更新、数据导入导出、数据浏览与检索等功能,并且尝试在系统中引入一些自动化技术,如新词发现、关系推荐、定义抽取等辅助构建模块,能够为用户编制、管理叙词表提供支持。

4.1 用户及功能模块

系统用户可分为词表管理员、评审专家、编辑用户以及普通用户4大类。词表管理员的功能包括用户及权限管理、日志管理、词表创建与删除、词表更新与维护、数据导入导出、数据审核与发布;评审专家主要负责对编辑用户提交的数据进行初审;编辑用户主要负责数据加工;普通用户主要是浏览和检索叙词表编制系统对外发布的数据。此外,为了便于用户之间的沟通与交流,系统还提供信息发布和交流平台,管理员能够及时发布各种通知和消息,数据加工人员、审核专家可以进行沟通和讨论,如图2所示:

图2 叙词表编制系统用户-功能模块

4.2 数据加工、审核及发布

数据加工阶段数据状态为“加工中”,此时编辑用户可以对数据进行修改、删除等操作,若编辑用户将加工数据提交,数据状态成为“待评审”,意味着数据加工已经完成,此时编辑用户不能对已经提交的数据进行修改。

数据审核采用专家初审和管理员终审两级审核机制。评审专家首先对编辑用户提交的数据进行评审,如果评审通过,数据状态成为“待终审”,反之数据状态为“初审未通过”;通过专家评审的数据提交给管理员终审,通过终审的数据状态为“待发布”,反之为“终审未通过”。也可以通过权限分配,将初审和终审工作分配给不同专家和个人。

数据加工、审核完成后还需由管理员发布才能对外提供服务,普通用户浏览和检索到的是“发布”状态的数据。

以上数据加工、审核及发布流程如图3所示:

图3 数据加工、审核及发布

4.3 辅助构建模块

目前,尚无法通过全自动方式实现叙词表的编制和更新,但可以通过推荐的方式辅助用户进行叙词表的编制、更新工作。辅助构建模块包括新词发现、关系抽取及定义抽取,主要沿用已有研究成果[ 15],在用户添加/修改叙词、关系、定义时为用户提供参考。考虑到辅助构建模块仍处于实验阶段,算法和程序会发生变更,因此在设计上降低辅助构建模块与系统之间的耦合度,同时系统为该模块预留接口,以便模块与系统的集成及更新。

4.4 数据字典

限于篇幅,本文仅对叙词、用代关系、概念、概念与叙词之间的对应、属分关系进行说明。表1表5参见ISO 25964-1中的数据模型[ 12]:表1是叙词的字段及说明,其中叙词类型包括正式叙词、简单非正式叙词以及复杂非正式叙词,叙词状态对应3.2节数据加工流程中数据的各种状态;表2是正式叙词与简单非正式叙词建立的用代关系,二者遵循“一对多”的原则;表3是概念的字段及说明,其中notation是概念符号,可以是用户自定义的概念符号;表4是正式叙词与概念之间建立的一一对应关系;表5是概念之间的属分关系,其中关系类型是“broader”或“narrower”,也可以定义更详细的属分关系。

表1 叙词
表2 用代关系
表3 概念
表4 概念-首选词
表5 属分关系
5 系统开发
5.1 开发环境及技术

系统开发平台为Eclipse Galileo,JDK 版本为1.6.0,应用服务器为Tomcat 6.0,数据库为PostgreSQL V8.3。系统为J2EE 三层架构,采用Spring技术,整个系统完全依赖于接口而不是具体实现,具有高度灵活性和可配置性。数据持久层采用数据对象映射(O/R Mapping)技术Hibernate,通过关系对象映射实现业务对象和数据库之间的对应,保证业务逻辑层与数据层的独立性;表现层采用HTML/CSS/JavaScript/JSON/Ajax,可以减少页面加载时间,提升用户体验。

5.2 核心功能实现

叙词表编制系统核心业务流程为:词表管理员创建词表-编辑者添加数据-评审专家审核数据-管理员(审批专家)终审。

(1)创建词表

创建词表时要为词表指定用户和权限,包括浏览人员、编辑人员、评审人员及终审人员,这些人具有相应的浏览、加工及审核权限。

(2)数据加工

①添加叙词

图4是添加叙词的界面,正式叙词和非正式叙词数据结构是一致的,因此二者基本信息项相同,区别在于非正式叙词用户只需要添加叙词的基本信息和用项,添加完成后系统保存非正式叙词以及与用代关系两部分数据;对于添加正式叙词,用户除了添加正式叙词的基本信息和代项外,还可以添加概念的基本信息和概念关系(包括属分关系、相关关系),最后系统保存正式叙词、用代关系、概念、概念对应的首选叙词以及概念关系5部分数据。

图4 编辑人员“添加叙词”页面

②修改/删除叙词

修改/删除叙词与添加叙词类似,对于正式叙词,用户能够修改/删除叙词和概念相关的数据;对于非正式叙词,用户只能修改/删除非正式叙词相关的信息。

③正式叙词与非正式叙词之间的转换

由于知识具有动态发展的特点,概念的名称可能会随着时间的推移发生改变。针对叙词表的更新维护,设计了正式叙词与非正式叙词之间的转换模块。正式叙词转变为非正式叙词,需要用户指定新的正式叙词(即将原概念关联到一个新的首选词),该正式叙词可以从非正式叙词中产生,也可重新创建,系统需要将原正式叙词对应的用代关系全部删除,生成新的用代关系,同时将概念首选词更新为新正式叙词;相应地,非正式叙词也可转换为正式叙词,流程与从非正式叙词中指定正式叙词相同。

(3)数据评审

图5是评审专家评审词条的页面, 评审专家可以逐条进行评审,并附上评审意见,也可以批量评审,管理员终审与评审的页面和功能类似。

图5 评审专家“评审词条”页面

5.3 系统实现效果及存在问题

由于系统参照ISO 25964数据模型,数据对象和关系比较明确,减少了系统设计的工作量;用户页面采用了Ajax技术,客户端和服务器的数据交换大多都在后台完成,减少了页面的跳转,提高了编辑、审核人员的工作效率。系统也存在一些问题,比如一条叙词中某一字段内容不合格会导致整条叙词审核未通过,如果审核专家能够修改审核数据,或者将加工、审核的对象细化,分离出需要单独加工、审核的字段或数据对象,则能够减少资源和人力的浪费。

6 结 语

目前,系统已经实现了数据加工、审核等核心功能,并正在进行内部测试。对于已经开发完成的模块,测试中可能还会发现其他漏洞或者设计欠合理的地方,有待进一步修改和完善。针对实际应用还需要开发浏览和检索、数据导入导出、用户管理、日志管理、信息发布交流平台等功能。为了让叙词表编制系统更高效和人性化,后续开发中需要着重解决以下问题:

(1)对已有的研究成果和工具[ 15]进行调整并集成到叙词表编制系统中,包括基于文本的新词发现、关系推荐、定义自动抽取等,实现自动/半自动化的叙词表辅助构建,提高叙词表编制效率;

(2)改善人机交互界面,比如利用可视化工具,用户通过拖曳就能实现层级结构和各种关系的构建。

参考文献
[1] 汉语主题词表[EB/OL]. [2010-02-25]. http://baike.baidu.com/view/608618.htm?fr=iml. [本文引用:1]
[2] SO 2788-1986, Documention-Guidelines for the Establishment and Development of Monolingual Thesauri[EB/OL]. [2010-03-07]. http://www.saiglobal.com/PDFTemp/Previews/OSH/ISO/ISO_12345_07-02/T007776E.PDF. [本文引用:1]
[3] ISO 5964-1985, Documention-Guidelines for the Establishment and Development of Multilingual Thesauri[EB/OL]. [2010-03-07]. http://archive.ifla.org/VII/s29/pubs/Draft-multilingualthesauri.pdf. [本文引用:1]
[4] ANSI/NISO Z39. 19-2005, Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies[EB/OL]. [2010-03-07]. http://www.dis-alp.org/modules.php?op=modload&name=UpDownload&file=index&req=getit&lid=101. [本文引用:1]
[5] BS 8723-1: 2005, Structured Vocabularies for Information Retrieval-Guide-Part1: Definitions, Symbols and Abbreviations[EB/OL]. [2010-03-07]. http://schemas.bs8723.org/Home.aspx. [本文引用:1]
[6] BS 8723-2: 2005, Structured Vocabularies for Information Retrieval-Guide-Part2: Thesauri [EB/OL]. [2010-03-07]. http://schemas.bs8723.org/Home.aspx. [本文引用:1]
[7] BS 8723-3: 2007, Structured Vocabularies for Information Retrieval-Guide-Part3: Vocabularies other than Thesauri[EB/OL]. [2010-03-07]. http://schemas.bs8723.org/Home.aspx. [本文引用:1]
[8] BS 8723-4: 2007, Structured Vocabularies for Information Retrieval-Guide-Part4: Interoperability Between Vocabularies[EB/OL]. [2010-03-07]. http://schemas.bs8723.org/Home.aspx. [本文引用:1]
[9] BS DD 8723-5: 2008, Structured Vocabularies for Information Retrieval-Guide-Part5: Exchange Formats and Protocols for Interoperability[EB/OL]. [2010-03-07]. http://schemas.bs8723.org/Home.aspx. [本文引用:1]
[10] 中华人民共和国国家标准. GB 13190-91, 汉语叙词表编制规则[S]. 北京: 中国标准出版社, 1991. [本文引用:1]
[11] 中华人民共和国国家标准. GB/T 15417-94, 文献多语种叙词表编制规则[S]. 北京: 中国标准出版社, 1991. [本文引用:1]
[12] ISO 25964-1 Ballot Version, Information and Documentation - Thesauri and Interoperability with other Vocabularies - Part1: Thesauri for Information Retrieval[EB/OL]. [2010-03-07]. http://www.niso.org/apps/org/workgroup/iso25964/documents.php. [本文引用:3]
[13] Software for Building and Editing Thesauri[EB/OL]. [2010-03-26]. http://www.willpowerinfo.co.uk/thessoft.htm. [本文引用:1]
[14] 杜慧萍. 国外计算机辅助编制叙词表软件评价[J]. 现代图书情报技术, 2009(9): 17-21. [本文引用:1]
[15] 梁健. 基于文本的本体学习及实验系统研究[D]. 北京: 中国科学技术信息研究所, 2006. [本文引用:2]