在信息组织领域, 基于叙词表的本体构建近年来成为国内外学者的研究热点之一。叙词表与本体的相似性决定了基于叙词表的本体构建较传统的手工本体构建更具优势。这是因为叙词表中含有大量的专业术语及简单的概念关系, 为领域本体的快速构建提供了极大的便利。然而, 并不是所有的概念及关系都可以直接转换为领域本体的类与属性。叙词表中分散杂乱的概念间关系, 由于未经过严格的定义, 往往造成概念表达过于笼统与宽泛。这显然违背了本体定义中的“明确化”要求。在词间关系细化方面, 有少数学者已进行了初步的探索, 研究的重点多放在如何将庞大繁杂的词间关系进行合理分类, 以实现语义表达的规范化与本体的快速构建方面。而本文不仅立足于词间关系的细化研究, 更致力于进一步探索其实践应用。以相关叙词表为研究对象, 通过对词间关系的细化研究与应用, 最终设计完成导弹领域的本体框架。
在叙词表概念间关系研究方面, 2005年美国建立了《单语种受控词表的结构、格式与管理指南》的国家标准, 即ANSI/NISO Z39.19-2005[ 1]。在此标准中, 将词间关系分为等级、同义、相关三个类别, 其下又分17种细化关系。英国在词间关系研究方面, 先后建立BS8723-2005、BS8723-2007[ 2]等叙词表编制标准。在此标准中概念间关系分为等级、同义、相关、定制4个方向。与国外相比, 国内学者在该领域缺乏系统全面的研究。倪浩等[ 3]对中国、美国及国际上几种叙词表的编制标准进行对比, 并分析了其中等级关系在处理和显示方面的异同点。曾新红等[ 4]阐述了中文叙词表本体共建共享系统的设计和总体结构, 并描述了中文叙词表转换为OWL本体扩展的术语集定义及叙词表文本的断言集实例自动转换机制。贾黎莉[ 5]基于本体的概念间关系提出具体的细化方案, 并将其分为12大类, 同时对每一大类进行详细定义与分析。
此外, 在基于叙词表的本体构建方面, 国内外许多学术机构也开展了不同层次的深入研究。如联合国粮农组织 (FAO) 的项目小组尝试将AGROVOC叙词表改造成农业本体项目, 阿姆斯特丹大学利用AAT建立描述艺术对象的本体项目以及美国Syracuse大学研究的教育资料网关 (GEM) 中的受控词表转化本体项目[ 6]。而国内学者的研究成果则主要集中在将《中国分类主题词表》、《汉语主题词表》等词表转换为领域本体[ 7, 8]。
在上述研究的基础上, 本文通过对国防领域中核心概念关系的梳理与细化, 以期为未来其他领域的本体构建提供一个可借鉴的语义框架, 为概念间关系的标准体系构建奠定实践基础。
叙词表又称主题词表, 是特定学科领域内表达事物概念的词汇集合, 它将文献、标引人员或用户的自然语言转换成规范语言, 主要用于检索时的后控制和标引时的自动或辅助选择索引词, 是提高查全率和查准率、实现多语种检索和智能化概念检索的重要途径[ 9]。
在组织结构上, 不同于本体语义关联的网状结构, 叙词表中知识点的分布以一维、线性结构进行呈现。这种表现形式决定了它所能表达的概念关系较为有限, 仅能通过“用、代、属、分、参”5种参照项和索引方式对概念间关系进行简单划分。5种参照项对应三种大的概念关系, 即等同关系、等级关系和相关关系[ 10]。
这种宽泛的概念关系划分方式对于本体构建的借鉴意义是微乎其微的。体现在即便同为等级关系的概念之间, 其涵义也可能大不相同。如叙词表中常用的等级关系可能包括以下几种情况:属种关系 (如飞机和喷气式飞机) ;整体和部分关系 (如华北地区和北京) ;类和实例关系 (如海和太平洋) 。这造成在本体构建过程中需要耗费大量时间和精力对每一个概念的属性及关系进行详细具体的确定, 大量重复性的工作不仅减慢了本体的构建速度, 而且容易导致关系确立的不一致, 从而降低本体构建的质量与本体推理的合理性。因此, 对这一宽泛的概念关系进行明确细化, 广泛、深入、细致并全面地描述本体中的语义关系是本体构建过程中至关重要的一个环节。
为了准确地细化叙词表中粗粒度的概念关系, 对几种主要的叙词表编制规则, 如对叙词表国际标准ISO2788、中国标准GB13190-91以及美国标准NISO Z39.19-2005进行对比研究。在借鉴前人研究的基础上[ 1, 11, 12], 在合理应用信息组织中叙词语言词间关系的控制规则前提下, 提出具体的词间关系分类方法。
(1) 等同关系的细化.
所谓等同关系, 是指概念上相同或相近的概念。这一关系有利于增加检索入口, 实现更好的控制标引与检索专指度。它通过符号“Y”、“D”进行表示。术语1 D 术语2, 则称术语1为正式叙词, 术语2为非正式叙词;反之, 术语1 Y 术语2, 则称术语1为非正式叙词, 术语2为正式叙词。这里将其细化为以下4种情况:
①同义关系.
同义关系包括同一事物的俗名与学名, 旧称与新称、简称与全称、异形同义词、中文译名与外文缩写词、新概念的不同名称以及当前流行语和过时词汇等。如计算机 D 电脑。
在本体映射中, 属性<owl:equivalentClass>被用来表示两个类有完全相同的实例。因此, 在解决异形同义的问题时, 通常采用这一属性联结两个异形同义的概念。即:
<owl:Class rdf:ID="计算机">
<owl:equivalentClass rdf:resource="#电脑"/>
</owl:Class>
类似地, 可使用<owl:equivalentProperty>属性声明表达属性的等同关系。
②近义关系.
又称相似关系, 指意义相近但又不是同一个概念的两个词之间的关系。如军事工程 Y 国防工程, 导弹安全 D 导弹事故。
③反义关系.
表达概念之间意义相反、矛盾或对立的关系。如稳定性 D 不稳定性。
④限定关系.
一个词对另一个词起到意义限定的作用。如:核推进 D 化学核推进, 雷达 D 雷达技术。
与相关关系相比, 等同关系的语义更加明确, 因此在转换过程中, 易于建立映射规则。但由于人为定义含义的差异, 这一语义关系在不同的叙词表中其对应的本体关系也有所区别[ 13], 如表1所示:
![]() | 表1 不同本体构建项目的等同关系表示 |
借鉴AAT的表达方法, 本文建议统一采用语义标签<be similar to>和<be contrary to>对等同关系细化下的近义关系和反义关系进行表示。而对限定关系, 可直接将两个概念定义为不同的类。
(2) 等级关系的细化.
等级关系是指拥有相同概念内涵, 但外延范围不同的上下位叙词间的层级关系, 用 “S”或“F”表示。它主要借助上位叙词、下位叙词的划分、归类, 对词表进行组织, 服务于扩检和缩检。前文已指出, 叙词表中的等级关系可细化为三种类型, 即属种关系、整体部分关系及实例关系。由于传统叙词表对于等级关系的划分比较明晰, 所以在构建本体时除个别词条外, 绝大部分等级关系叙词可以直接转换。
①属种关系.
在判别属种关系时, 评定原则为:A部分是B, B全部是A, 则B属于A, 两者是属种关系。如导弹不全是巡航导弹, 但全部的巡航导弹都属于导弹这一范畴, 这两者就是属种关系。用代码表示导弹 F 反舰导弹:
<owl:Class rdf:ID="反舰导弹">
<rdfs:subClassOf rdf:resource="#导弹"/>
</owl:Class>
②整部关系.
ISO2788 (第二版) 规定, 综合性词表中具有整体部分关系的词一般不构成等级关系, 但规定以下4种情况例外, 即:表示行政区域、地理区域的整部关系, 如:亚洲 F 东南亚;表示人体、生物体的系统与器官的整部关系, 如:眼睛S五官;表示某些行政与社群结构的包含关系, 如:联合国安全理事会F联合国军事参谋团;表示知识的学科分支或专业领域, 如:科学 F 航空学。
③实例关系.
实例关系主要体现在《国防科学技术叙词表》型号表[ 14]部分。在导弹这一目录下显示, 超音速反舰导弹是反舰导弹的一个具体实例。用OWL代码表示为:
<反舰导弹 rdf:about="#超音速反舰导弹">
<rdf:type rdf:resource="&owl;Thing"/>
</反舰导弹>
(3) 相关关系的细化.
作为扩大检索范围、进行相关资料查找的重要手段, 叙词表中的相关关系涵盖范围广泛, 类型复杂多样, 在面向本体构建时对此类关系的调整存在一定难度。在前人研究的基础上, 本文将一些简单的、不常用且对本体构建借鉴意义不大的相关关系进行剔除, 如主体与行为关系:导弹指挥仪 C 指挥;行为与对象关系:发射 C 导弹, 重点对国防领域中具有重要意义的概念进行分类。这有助于突出国防领域本体中核心关系的构建方法, 并对其特征进行深入描述。经过研究, 将国防领域中常见的相关关系划分为9种, 如表2所示:
![]() | 表2 9种常见的细粒度相关关系 |
关系 |
| <操纵> <开展> …… | ||||
关系 |
| <有研究对象> | ||||
关系 |
| <有技术> <有方法> <有工具> | ||||
关系 |
| <用于> | ||||
C 理事国 | <有成员> | |||||
| <并列于> |
(注:使用中文对属性命名时, 尽量使用简洁但表达含义清晰的词汇。可参考英文命名法, 加上诸如“由”、“有”等前缀, 利于用户了解并理解属性的指向, 易于读者理解。) .
加上之前等同、等级关系细化下的7种子关系, 本文所描述的16种子关系已全部介绍完毕。当然, 在叙词表中还包含一些未经定义或无法进行明确归类的相关关系, 这里不再赘述。以下将重点对这一研究进行具体应用。
在上述基于本体构建的词间关系细分研究的基础上, 选取《航天科学技术叙词表》[ 15]中“导弹”这一词族中的部分概念, 通过对其词间关系进行重点、深入的分析, 初步建立导弹领域本体框架, 从而使读者更为深刻地了解词间关系细分在本体构建中的借鉴意义。
《航天科学技术叙词表》作为具有中国航天特色的第一部航天专业词表, 以实现航天专业信息、图书、档案等科技文献标引和检索语言一体化、满足航天文献工作的实际要求为目标, 在充分考虑与《国防科学技术叙词表》和美国《NASA叙词表》兼容性的基础上, 共收录词汇量25 168条。其中, 正式叙词22 788条 (含878条族首词、358条领词) , 非正式叙词2 380条, 设置一级范畴类目29个, 二级范畴类目221个[ 16]。《航天科学技术叙词表》中“导弹”这一词族的部分核心概念, 如图1所示:
.的部分核心概念.
本文采用自顶向下的等级体系构建方法。首先确定“导弹”作为本体构建的核心概念, 之后添加如 “导弹部件”、“相关人员”、“组织机构”、“技术方法”、“应用材料”、“性能参数”等作为相关重要概念。在这几种顶层概念的分类下, 参照《航天科学技术叙词表》与导弹类技术资料添加相关术语。鉴于篇幅, 表3只显示了部分术语。
![]() | 表3 “导弹”词族的部分核心概念及相关术语 |
可以看出, 该层级关系是可传递的。例如某型号“空潜导弹”是“反潜导弹”的一个实例, 则可以推出它也是“反舰导弹”的一个实例。但是, subClassOf原语并非层级关系的唯一映射方式, 在构建“零部件”之间的组成与被组成关系时, 可通过自定义属性“由组成/组成”来描述组建的从属关系。如<“导弹”, “由组成”, “导弹弹头”>。这种以属性定义的方式可以解决目前绝大多数Class以外的层级表义问题。
(1) 添加概念的数据属性.
结合《航天科学技术叙词表》主表及范畴表, 为“导弹”添加数据属性, 如图3所示:
.需要强调的是, 这些数据属性均可被导弹的下位类继承, 其下位类也可定义自身所具有的特殊属性。如为“弹道式导弹”添加“弹道曲率”、“弹道偏角”等。
同样地, 可以为“相关人员”添加“姓名”、“性别”、“年龄”、“学历”、“职称”、“联系方式”等数据属性。为“组织机构”添加“名称”、“地址”等数据属性。
(2) 定义概念间关系.
类的另一种属性称为“对象属性”, 对象属性属于外在属性, 描述的是类间关系。通过对象属性可联系两个不同类的具体实例[17]。本研究中的核心概念间关系如图4所示:
.这9个概念间关系均是在前文相关关系细化分类的基础上完成的。例如, “组织机构”与“相关人员”之间的“雇佣”与“被雇佣”关系, 对应表2中关系4, 即代理对象关系, 可通过添加对象属性“雇佣”将两个概念间的实例连接起来, 如“中国航天科技集团公司”<雇佣> “导弹研制人员”;而“导弹”与“导弹部件”之间“组成”与“被组成” 关系, 对应表2中的关系3, 即零部件关系, 可通过添加对象属性“由组成”将两个概念间的实例连接起来。如某型号“反舰导弹”<有部件>“倒挂接头”。类似地, “导弹学”是以“导弹”为研究对象, 两者间对应表2中的关系5, 即学科对象关系。鉴于篇幅, 这里不再一一详述。
定义属性的同时, 尽可能地给属性设置定义域rdfs:domain和值域rdfs:range, 使之通过继承应用于子类。以“性能参数”为例, “弹道偏角”是“弹道式导弹”的专有属性, 表示为导弹速度矢量在水平面的投影与地面坐标所成的夹角值, 值的类型是float, 代码如下:
<owl:DatatypeProperty rdf:ID="弹道偏角">
<rdfs:domain rdf:resource="#弹道式导弹"/>
<rdfs:range rdf:resource="&xsd;float"/>
</owl:DatatypeProperty>
此外, 还需要为对象属性添加取值方式及基数限制。如对“导弹部件”架构中的“由组成”进行侧面定义如下:
<owl:ObjectProperty rdf:ID="由组成">
<rdf:type rdf:resource="&owl;TansitiveProperty"/>
</owl:ObjectProperty>
<owl:Class rdf:about="反舰导弹">
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource="#由组成"/>
<owl:someValuesFrom rdf:resource="#导弹弹头"/>
</owl:Restriction>
</rdfs:subClassOf>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource="#分离舱数量"/>
<owl:minCardinality.
rdf:datatype="&xsd;nonNegativeInteger"/>
1</owl:minCardinality>
</owl:Restriction>
</rdfs:subClassOf>
</owl:class>
其中, &owl;TransitiveProperty定义“由组成”属性具备传递性;someValuesFrom表明“反舰导弹”至少有一个“导弹弹头”;minCardinality是对“分离舱数量”的最小基数限制, &xsd;nonNegativeInteger表示数值必须是非负整数, 1表示“反舰导弹”至少有一个“分离舱”。以此类推, 实现对其他属性的完整约束。
参考《国防科学技术叙词表》中型号表为概念添加相应实例, 如为“反舰导弹”添加实例“超音速反舰导弹”, 为“巡航导弹”添加实例“海射巡航导弹”, 为“所用材料”添加实例“铝基复合材料”、为“技术方法”添加 “弹道导弹技术”、“车载发射”;为“组织机构”添加“中国航天科工集团公司”、“第二炮兵”等。
概念间关系是本体的重要组成部分, 对概念间关系的清晰表达将使本体所包含的知识更为丰富, 也在一定程度上更为准确地表达了领域内容, 为未来实现本体的重用和共享提供便利。本文针对国防领域所提出的叙词词间关系细化, 在很大程度上为本体构建提供了详细思路, 不仅降低了国防领域本体语义关系的构建难度, 还在提高构建效率的同时实现了语义关系的连贯统一, 为本体语义推理及共享映射奠定基础。未来笔者将继续深入这方面的研究, 尤其关注如何用合适的本体语言对词间关系进行准确、详细的描述。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|