中图分类号: TP182 G353
通讯作者:
收稿日期: 2016-06-27
修回日期: 2016-10-17
网络出版日期: 2016-11-25
版权声明: 2016 《现代图书情报技术》编辑部 《现代图书情报技术》编辑部
基金资助:
展开
摘要
【目的】在蒙古文信息资源急剧增长的背景下, 探索将基于本体的语义检索应用到蒙古文领域, 提高蒙古文信息资源检索效果。【方法】利用本体技术重视推理、互联的优势, 借助语义解析与推理工具Jena的规则推理引擎, 设计并实现了基于蒙古文音乐领域本体的蒙古文语义检索系统。【结果】相较于关键词匹配检索, 语义检索系统查全率达到95.6%、查准率达到93.2%, 明显高于关键词匹配检索。【局限】仅以蒙古族多声部音乐为研究对象, 实验对象数据有限, 检索具有一定的局限性。【结论】对基于蒙古文领域本体的语义检索进行了完整的研究, 为蒙古文语义网应用研究打下良好的理论和技术基础。
关键词:
Abstract
[Objective] This paper aims to improve the retrieval performance of the booming Mongolian information resources with Ontology based semantic technology. [Methods] We designed a semantic retrieval system with the help of Mongolian music domain Ontology as well as the semantic analysis and inference engine Jena. [Results] Compared to the keyword matching retrieval systems, the recall and precision of the proposed system were significantly improved (95.6% and 93.2%, respectively). [Limitations] The experimental data only included the Mongolian multi-voice music. [Conclusions] The proposed semantic retrieval system lays theoretical and technological foundations for the research of Mongolian semantic Web applications.
Keywords:
互联网发展有两种明显的趋势: 信息资源的语义化; 用户与信息资源的多语言化[1]。其实, 当前不仅英语、汉语、俄语等语言网络信息资源在急剧增长, 随着中国少数民族文献信息资源建设的推进, 各类少数民族语言的网络信息资源也在飞速增加, 尤其是传统蒙古语(简称蒙古文)信息资源建设经过几十年的艰苦努力, 从无到有, 取得了令人瞩目的成就。如内蒙古蒙古文报网联盟平台、耶理巴蒙古文文献管理系统[2]、蒙古文期刊网[3]、中国蒙古学信息网[4]等。此外, 内蒙古大学图书馆参加了“中美百万册数字图书馆合作计划”, 共完成了6 000余种蒙古文现代图书数字化, 建立了“蒙古文资源全文数据库”[5]。在此背景下, 如何高效地获取有价值的蒙古文信息资源, 为蒙古文用户提供更有效的检索服务, 成为当下蒙古文信息资源数字化建设亟待解决的难题。
传统蒙古语属于阿尔泰语系, 主要使用者分布在中国内蒙古自治区、辽宁省、黑龙江省、吉林省、甘肃省、青海省、新疆维吾尔自治区等地区, 是中国少数民族语言中使用范围、社会影响及国际知名度比较广泛的语种[6]。蒙古文有34个字母, 其中包含7个元音字母和27个辅音字母。蒙古文的拼写是以词为单位竖写, 一个词内字母连着写, 词之间用空格分开, 总的书写规则是从上到下连写, 从左到右移行。蒙古文的每个字母在字首、字中、字尾有不同的变体; 有的变体有多种形式, 导致这些变体字母的书写形式不一致, 存在一字多形、多字同形、形同音不同的现象。此外, 蒙古文中有一套非常复杂而严密的正字法规则和语法规则[7], 所有的这些特点导致它不能按字母读音检索, 以至于蒙古文被称为最难检索的文字之一。
随着语义网的提出, 本体成为语义网新的研究方向和热点。国内研究人员对语义网的探索主要集中在本体构建和语义检索两方面, 构建了一些具有推理能力的系统。Li等[8]提出一种基于描述逻辑的组合推理方法。Huang等[9]提出利用语义相似度计算获得粗糙本体中的隐藏信息, 实现了关联信息的挖掘。孟红伟等[10]通过对文献领域本体中的重要概念进行语义标注和语义相似度计算, 提高文献检索的准确度。周群芳等[11]设计一个基于Jena推理和Lucene框架的专利语义检索系统, 提高了专利检索的效率。武俊丽[12]在研究中先分析了传统信息检索方式的不足之处, 利用本体的结构特点, 对语义标注技术进行分析研究, 构建适用于计算机领域期刊文献的检索系统。李兵[13]构建适用于专利领域的语义检索系统, 通过语义推理达到提高查准率的目的。在蒙古语语义Web研究中, 苏依拉等[14]利用本体知识, 建立了一个蒙古文的内蒙古自治区的小型地名本体词表, 方便有关地理信息的语义检索; 此外苏依拉等[15]还通过构建“人工智能(ᠬᠢᠮᠡᠯ ᠤᠶᠤᠨ ᠴᠢᠳᠠᠪᠤᠷᠢ)”课程蒙古文领域本体, 并对检索的知识点进行语义相似度计算, 构建适用于蒙古文教学领域的学习系统。塔娜等[16]以跨语言信息检索需求为背景,利用构建领域本体的方法给出蒙汉双语计算机术语语义词典的初步设计方法。从整体上来看, 蒙古文语义Web研究相对于汉语语义Web研究, 还处于相对薄弱的阶段。
因此本文引入语义Web技术, 选取蒙古族音乐代表性的多声部音乐潮尔和马头琴为本体研究对象, 重点探讨适用于蒙古文音乐领域本体的推理规则, 构建基于蒙古语音乐领域的语义检索原型系统, 并实现该系统, 为蒙古文语义Web的应用研究奠定一定的基础, 进一步丰富语义网的研究领域和内容。
目前比较成熟的本体构建方法有TOVE法[17]、IDEF-5法[18]、骨架法[19]、七步法[20]等。本文借鉴“七步法”和“骨架法”的主要步骤, 结合Methontology法、IDEF-5法的特点, 根据“蒙古文音乐”领域本体构建实际情况, 确定本文的构建思路和流程, 如图1所示。
本体研究缺少对中文, 特别是少数民族语言的支持。基于蒙古文音乐领域的本体构建方法研究, 验证了蒙古文领域本体构建技术的可行性。有利于建立蒙古文数字资源知识组织, 进一步丰富蒙古文信息处理和语义网领域的研究内容。本文的研究对象是具有蒙古族传统音乐代表性的潮尔和马头琴音乐。本体的共享特性使本体模型中的数据能够实现重用, 而蒙古文音乐领域现在还未找到可以重用的本体数据。通过领域专家、相关文献书籍等收集蒙古音乐潮尔和马头琴领域的术语和概念知识, 并确定核心概念之间的关系。使用Protégé构建本体模型。本研究中的蒙古文音乐领域本体可根据其概念定义的清晰性、一致性、完整性、可扩展性等构建规则进行确认。在进化环节, 根据本体的可扩展性、灵活性的特点, 特别是蒙古文存在一字多形和一词多义现象, 在蒙古音乐本体构建初期, 一些概念之间的关系可能不是很明确。N表示还可以对蒙古音乐本体数据进行维护和完善。Y表示之前构建的蒙古音乐本体没有问题, 可以完成本体建库。
通过蒙古文期刊网和中国知网选取一定量关于蒙古文音乐潮尔和马头琴的学术论文, 利用基于层叠隐马尔可夫模型的蒙古语词切分系统[21]对这些数据进行预处理, 取得数据中的蒙古音乐术语概念的字词集合; 按照最具蒙古族音乐领域代表性的原则, 选取关键蒙古音乐的术语概念如下:
蒙古族多声部音乐(ᠮᠣᠩᠭᠣᠯ ᠦᠨᠳᠦᠰᠦᠲᠡᠨ ᠦ ᠤᠯᠠᠨ ᠮᠦᠷᠲᠦ ᠳᠠᠭᠤᠤ ᠬᠦᠭ᠍ᠵᠢᠮ)、潮尔(ᠴᠣᠭᠣᠷ)、冒顿潮尔(ᠮᠣᠳᠤᠨ ᠴᠣᠭᠣᠷ)、托布秀尔(ᠲᠣᠪᠰᠢᠭᠤᠷ)、浩林潮尔(ᠬᠣᠭᠣᠯᠠᠢ ᠶᠢᠨ ᠴᠣᠭᠤᠷ)、潮尔哆(ᠴᠣᠭᠣᠷ ᠳᠠᠭᠤᠤ)、胡尔(ᠬᠤᠭᠤᠷ)、多声部(ᠣᠯᠠᠨ ᠮᠦᠷᠲᠦ ᠳᠠᠭᠤᠤ)、持续低音声部(ᠬᠦᠩᠭᠢᠨᠠᠮᠠ ᠳᠠᠭᠤᠨ ᠤ ᠬᠡᠰᠡᠭ ᠢ ᠦᠷᠭᠦᠯᠵᠢᠯᠡᠬᠦᠯᠬᠦ)、持续低音声部为乐器演奏(ᠬᠦᠩᠭᠢᠨᠠᠮᠠ ᠳᠠᠭᠤᠨ ᠤ ᠬᠡᠰᠡᠭ ᠢ ᠦᠷᠭᠦᠯᠵᠢᠯᠡᠬᠦᠯᠤᠨ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ)、旋律声部(ᠠᠶᠢᠵᠢᠮ ᠳᠠᠭᠤᠤ ᠶᠢᠨ ᠪᠦᠯᠦᠭ)、旋律声部为乐器演奏(ᠠᠶᠢᠵᠢᠮ ᠤᠨ ᠪᠦᠯᠦᠭ ᠢ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ)、旋律部分长调 (ᠠᠶᠢᠵᠢᠮ ᠤᠨ ᠪᠦᠯᠦᠭ ᠳᠡᠭᠢ ᠤᠷᠲᠤ ᠶᠢᠨ ᠳᠠᠭᠤᠤ)、潮尔类乐器 (ᠴᠤᠭᠤᠷ ᠤᠨ ᠲᠦᠷᠦᠯ ᠦᠨ ᠬᠦᠭ᠍ᠵᠢᠮ)、叶克勒(ᠶᠢᠺᠢᠯ)、海拉克森潮尔(ᠬᠢᠯᠭᠠᠰᠤᠨ ᠴᠤᠭᠤᠷ)、潮尔音乐文化语境(ᠴᠤᠭᠤᠷ ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠰᠤᠶᠤᠯ ᠤᠨ ᠤᠷᠴᠢᠨ)、地域环境(ᠭᠠᠵᠠᠷ ᠤᠷᠤᠨ ᠤ ᠣᠷᠴᠢᠨ ᠲᠤᠭᠤᠷᠢᠨ)、生存语境(ᠠᠮᠢᠳᠤᠷᠠᠵᠤ ᠤᠷᠤᠰᠢᠬᠤ ᠣᠷᠴᠢᠨ ᠲᠣᠭᠤᠷᠢᠨ)、潮尔音乐源流 (ᠴᠤᠭᠤᠷ ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠡᠬᠢ ᠡᠭᠦᠰᠦᠯ)、早期潮尔音乐现象(ᠡᠷᠲᠡᠨ ᠦ ᠴᠤᠭᠤᠷ ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠦᠵᠡᠭᠳᠡᠯ)、自然音响 (ᠪᠠᠶᠢᠭᠠᠯᠯᠢᠭ ᠳᠠᠭᠤᠤ)、表演形式(ᠦᠵᠡᠭᠦᠯᠭᠡ ᠶᠢᠨ ᠬᠡᠯᠪᠡᠷᠢ)、可单人表演(ᠭᠠᠭᠴᠠ ᠬᠦᠮᠦᠨ ᠦ ᠦᠵᠡᠭᠦᠯᠭᠡ)、多人表演(ᠤᠯᠠᠨ ᠬᠦᠮᠦᠨ ᠦ ᠦᠵᠡᠭᠦᠯᠭᠡ)、音乐结构 (ᠳᠠᠭᠤᠤ ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠪᠦᠲᠦᠴᠡ)、人声+人声(ᠬᠣᠭᠣᠯᠠᠢ (ᠬᠦᠮᠦᠨ ᠦ ᠳᠠᠬᠤᠨ) + ᠬᠣᠭᠣᠯᠠᠢ (ᠬᠦᠮᠦᠨ ᠦ ᠳᠠᠬᠤᠨ))、人声+乐器(ᠬᠣᠭᠣᠯᠠᠢ (ᠬᠦᠮᠦᠨ ᠦ ᠳᠠᠬᠤᠨ) + ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠪᠠᠭᠠᠵᠢ)、乐器+乐器 (ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠪᠠᠭᠠᠵᠢ + ᠬᠦᠭ᠍ᠵᠢᠮ ᠦᠨ ᠪᠠᠭᠠᠵᠢ)、发展和流行分布 (ᠭᠦᠭ᠍ᠵᠢᠯᠲᠡ ᠪᠤᠯᠤᠨ ᠳᠡᠯᠭᠡᠷᠡᠯ ᠦᠨ ᠲᠠᠷᠬᠠᠯᠲᠠ)、新疆蒙古族留存的冒顿潮尔(ᠰᠢᠨᠵᠢᠶᠠᠩ ᠤᠨ ᠮᠣᠩᠭᠣᠯ ᠦᠨᠳᠦᠰᠦᠲᠠᠨ ᠦ ᠬᠠᠳᠠᠭᠠᠯᠠᠵᠤ ᠪᠠᠶᠢᠭᠠ ᠮᠣᠳᠤᠨ ᠴᠤᠭᠤᠷ)、科尔沁蒙古人的传统乐器海拉克森(ᠬᠤᠷᠴᠢᠨ ᠤ ᠮᠣᠩᠭᠣᠯ ᠦᠨᠳᠦᠰᠦᠲᠡᠨ ᠦ ᠤᠯᠠᠮᠵᠢᠯᠠᠯᠲᠤ ᠬᠦᠭ᠍ᠵᠢᠮ ᠬᠢᠯᠭᠠᠰᠤᠨ ᠴᠤᠭᠤᠷ)、锡林郭勒地区流行的潮尔哆(ᠰᠢᠯᠢ ᠶᠢᠨ ᠭᠤᠤᠯ ᠤᠷᠤᠨ ᠳᠤ ᠳᠡᠯᠭᠡᠷᠡᠭᠰᠡᠨ ᠴᠤᠭᠤᠷ ᠳᠠᠭᠤᠤ)、马头琴 (ᠮᠤᠷᠢᠨ ᠬᠤᠭᠤᠷ)、三种定弦法 (ᠭᠤᠷᠪᠠᠨ ᠵᠦᠢᠯ ᠦᠨ ᠬᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠬᠤ ᠠᠷᠭᠠ)、正四度定弦法(ᠦᠭᠰᠦᠬᠦ ᠲᠦᠷᠪᠡᠨ ᠭᠷᠠᠳᠦ᠋ᠰ ᠦᠨ ᠬᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠬᠤ ᠠᠷᠭᠠ)、正五度定弦法 (ᠦᠭᠰᠦᠬᠦ ᠲᠠᠪᠤᠨ ᠭᠷᠠᠳᠦ᠋ᠰ ᠦᠨ ᠬᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠬᠤ ᠠᠷᠭᠠ)、反四度定弦法 (ᠤᠷᠤᠭᠤᠳᠠᠬᠤ ᠲᠦᠷᠪᠡᠨ ᠭᠷᠠᠳᠦ᠋ᠰ ᠦᠨ ᠬᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠬᠤ ᠠᠷᠭᠠ)、五种演奏法(ᠲᠠᠪᠤᠨ ᠵᠦᠢᠯ ᠦᠨ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ ᠠᠷᠭᠠ)、潮尔定弦胡尔演奏法 (ᠴᠣᠭᠤᠷ ᠢᠶᠡᠷ ᠭᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠵᠤ ᠬᠤᠭᠤᠷ ᠢᠶᠡᠷ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ ᠠᠷᠭᠠ)、潮尔定弦或黑力定弦厄鲁特演奏法 (ᠴᠣᠭᠤᠷ ᠢᠶᠡᠷ ᠭᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠬᠤ ᠪᠣᠶᠤ ᠬᠢᠬᠢᠯᠢ ᠪᠡᠷ ᠭᠦᠭ᠌ ᠲᠠᠭᠠᠷᠠᠭᠤᠯᠵᠤ ᠦᠭᠡᠯᠡᠳ ᠨᠠᠮᠪᠠ ᠶᠢᠨ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ ᠠᠷᠭᠠ)、察哈尔定弦泛音演奏法(ᠴᠠᠬᠠᠷ ᠬᠦᠭ᠌ ᠦᠨ ᠢᠰᠭᠡᠷᠭᠡ ᠠᠶᠠᠰ ᠢ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ ᠠᠷᠭᠠ)、博尔赤斤定弦泛音演奏法 (ᠪᠣᠷᠵᠢᠭᠢᠨ ᠬᠦᠭ᠌ ᠦᠨ ᠢᠰᠭᠡᠷᠭᠡ ᠠᠶᠠᠰ ᠢ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ ᠠᠷᠭᠠ)、博尔赤斤定弦图布尔演奏法(ᠣᠷᠵᠢᠭᠢᠨ ᠬᠦᠭ᠌ ᠦᠨ ᠲᠣᠪᠰᠢᠭᠤᠷ ᠬᠦᠭ᠍ᠵᠢᠮᠳᠡᠬᠦ ᠠᠷᠭᠠ)、流行分布(ᠳᠡᠯᠭᠡᠷᠡᠯ ᠦᠨ ᠲᠠᠷᠬᠠᠯᠲᠠ)、内蒙古(ᠦᠪᠦᠷ ᠮᠣᠩᠭᠣᠯ)、辽宁(ᠯᠢᠶᠤᠤᠨᠢᠩ)、吉林(ᠭᠢᠷᠢᠨ)、黑龙江(ᠬᠠᠷᠠᠮᠦ᠋ᠷᠡᠨ)、甘肃 (ᠭᠠᠨᠰᠤ)、新疆 (ᠰᠢᠨᠵᠢᠶᠠᠩ)、代表人物(ᠲᠦᠯᠦᠭᠡᠯᠡᠭᠴᠢ ᠬᠦᠮᠦᠨ)、巴拉贡(ᠪᠠᠯᠭᠠᠨ)、布林巴雅尔 (ᠪᠦᠷᠢᠨᠪᠠᠶᠠᠷ)、桑都仍(ᠰᠠᠩᠳᠦ᠋ᠭᠦᠷᠡᠩ)、色拉西 (ᠰᠸᠷᠠᠰᠢ)、经典作品(ᠰᠤᠩᠭ᠋ᠤᠳᠠᠭ ᠪᠦᠲᠦᠭᠡᠯ)、太仆寺阿斯尔 (ᠲᠠᠶᠢᠹᠤᠰᠸ ᠠᠰᠠᠷ)、平魔记(ᠮᠠᠩᠭ᠋ᠤᠰ ᠢ ᠳᠠᠷᠤᠭᠰᠠᠨ ᠦᠯᠢᠭᠡᠷ)、美丽富饶的阿拉善(ᠦᠩ ᠰᠢᠮᠡᠯᠢᠭ ᠠᠯᠠᠱᠠ)、色润赛罕杭盖 (ᠰᠡᠷᠢᠭᠦᠨ ᠰᠠᠶᠢᠬᠠᠨ ᠬᠠᠩᠭ᠋ᠠᠢ)、走马 (ᠵᠢᠷᠤᠭᠠ ᠮᠣᠷᠢ)、鄂尔多斯的春天 (ᠤᠷᠳᠤᠰ ᠤᠨ ᠬᠠᠪᠤᠷ)等概念。
类用于描述抽象的实体对象, 代表着一类具有共同特性的实例对象。类具有继承性并以层次结构的形式组织, 最顶层的类代表着最抽象的实体概念, 子类继承了父类的抽象特性, 代表比其父类更具体或范围更小的实体概念。
通过查阅相关文献, 本文使用自底向上的方法, 明确概念集中的每一个概念知识的含义。分析概念之间潜在的显性关系和隐性关系。蒙古族多声部音乐潮尔和马头琴领域中核心术语概念是在蒙古文音乐基础上建立起来的, 它们的从属关系已经体现了概念的分层结构, 如图2和图3所示:
本体表示的具体过程就是定义类和属性。在本体模型中, 属性表示不同概念(类)之间的关系, 也显示了不同概念类之间的差异, 在本体建模工具Protégé中主要包括对象属性和数据属性。对象属性的作用是明确不同概念类之间的关系。数据属性的作用是描述概念类具有的数据。通过定义属性区分了不同概念类, 同时也避免了重复定义概念类, 有利于对不同概念类进行描述和归纳, 逐步形成知识层次结构:
蒙古族多声部音乐: {潮尔, 马头琴}
潮尔: {冒顿潮尔, 托布秀尔, 浩林潮尔, 潮尔哆, 胡尔}
多声部: {持续低音声部, 持续低音声部为乐器演奏}
旋律声部: {人声旋律声部, 旋律声部为乐器演奏, 旋律部分长调}
潮尔类乐器: {叶克勒, 海拉克森潮尔}
潮尔音乐文化语境: {地域环境, 生存语境}
潮尔音乐源流: {早期潮尔音乐现象, 自然音响}
表演形式: {单人表演, 多人表演}
音乐结构: {人声+人声, 人声+乐器, 乐器+乐器}
发展和流行分布: {新疆蒙古族留存的冒顿潮尔, 科尔沁蒙古人的传统乐器海拉克森潮尔, 锡林郭勒地区流行的潮尔哆}
马头琴三种定弦法: {正四度定弦法, 正五度定弦法, 反四度定弦法}
马头琴五种演奏法: {潮尔定弦胡尔演奏法, 潮尔定弦或黑力定弦厄鲁特演奏法, 察哈尔定弦泛音演奏法, 博尔赤斤定弦泛音演奏法, 博尔赤斤定弦图布尔演奏法}
流行分布: {内蒙古, 辽宁, 吉林, 黑龙江, 甘肃, 新疆}
代表人物: {巴拉贡, 布林巴雅尔, 桑都仍, 色拉西}
经典作品: {太仆寺阿斯尔, 平魔记, 美丽富饶的阿拉善, 色润赛罕杭盖, 走马, 鄂尔多斯的春天}
为了更好地描述本体概念之间的关系, 新增对象属性: Depend(依赖), Depended(被依赖), Use(使用), Used(被使用)。
在Protégé中的Individuals面板中添加类的实例(个体), 给这个实例中各个属性的赋值, 完成蒙古音乐领域本体的构建, 如图4所示:
本文使用开源Java框架Jena[22]作为推理工具, 实现蒙古文音乐领域内的概念知识的语义推理。
Jena框架自身包含RETE和Tabled Datalog 两个规则推理引擎, 它们能够实现三种推理模型。本文采用规则推理实现语义推理。规则推理, 是指把相关领域的专家知识形式化地描述出来, 形成系统规则。这些规则表示该领域的一些问题与这些问题相应的答案, 可以利用它们模仿专家在求解中的关联推理能力。制定推理规则时要紧密遵循本体的实际应用, 主要研究的领域是蒙古文音乐, 所以推理规则需要根据蒙古文音乐领域本体和检索需求进行制定。在本文中推理规则制定如下:
(1) 本体模型中概念间的层级结构和类的继承性具有异曲同工之处, 在本体概念中类的继承性主要表现为子类概念继承父类的特性, 子类概念同时也有父类概念类所没有的属性, 继承推理规则如下:
Rule1: (?a, rdfs:subClassOf, ?b), (?s, rdfs:type, ?a)->(?s, rdfs: type, ?b)
如果a是b的子类且s属于a的某个实例或者属性, 则s也属于b的某个实例或者属性。
(2) 本体中有时会存在两个具有相同属性值却名称不同的概念类, 而且有时候它们表示相同知识点的概念类, 对于这一类本体推理规则如下:
Rule2: (?a, owl:equivalentClass, ?b), (?s, rdf:type, ?a)->(?s, rdf:type, ?b)
Rule3: (?a, owl:equivalentClass, ?b), (?s ,rdf:type, ?b)->(?s, rdf:type, ?a)
名称不同但却表示同一知识点的概念类a和b 具有相同的属性值。
(3) 有包含关系的本体类, 推理规则如下:
Rule4:(?a,rdfs:subClassOf,?b), (?b,rdfs:subClassOf,?c)->(?a, rdfs: subClassOf, ?c)
概念类a、b、c形成面向对象中类的继承关系, a的属性由c继承而来, 同时a也包含c所没有的属性。
(4) 音乐概念存在相互依赖和平行的关系, 推理规则如下:
Rule5: (?f depended ?a), (?f depended ?b) ->(?a paralel ?b)
概念类a和b同时依赖于f, 则它们互为平行概念。
(5) 音乐中的不同概念在使用时存在关联性, 推理规则如下:
Rule6: (?a used ?b), notEqual (?a,?b) ->(?a reference ?b)
检索概念a时会用到概念b的相关信息, 且a和b表示不同概念, 则a和b具有关联关系。
本系统是基于蒙古文音乐领域本体的语义检索系统, 利用本体的推理技术对查询关键词进行语义扩展, 通过基于推理规则的语义推理技术获得本体数据中的隐藏关联信息, 从而实现蒙古文音乐领域语义检索原型系统。
根据系统的功能性需求分析, 参考主流的Web搜索引擎的架构方式, 结合语义Web和本体推理技术, 设计语义检索系统模型, 检索对象为蒙古文音乐领域的相关概念知识。采用浏览器/服务器(即 B/S结构)的架构方式, 由浏览器客户端, WebAPP服务器端(Tomcat)和DB端(存储领域本体文件)构成三层架构体系。
系统实现的技术路线: 使用RichFaces框架完成系统与用户交互, 包括系统查询检索界面和结果反馈界面。借助基于Jena框架设计的JavaBean推理中间件, 完成对查询关键词(检索条件)的语义解析和查询范围扩展, 使用推理引擎和推理规则完成推理过程, 调用本体数据与本体模型中的数据进行匹配, 输出查询结果。通过Protégé构建蒙古文音乐领域本体, 借助Jena实现持久化存储, 制定适合蒙古文音乐领域的推理规则。系统的整体架构设计如图 5 所示:
(1) 系统通过检索界面得到用户输入的查询关键词, 通过检索条件可以将查询范围限制在本体知识库中的概念类、属性、实例等, 从而明确检索需求。
(2) 在检索请求提交后, 系统会根据输入的检索词进行相应的语义扩展, 并且根据推理规则得出与原查询词相近或相似的查询词集合, 在语义层面上实现查询范围的扩展。
(3) 将原有信息和推理出来的隐含信息结合起来, 形成推理后的完整数据库。
(4) 再将用户的查询请求在经过推理的数据库中进行信息匹配, 获取有用的信息。
(5) 将最终查询结果以条理清晰、便于用户识别和使用的形式反馈给用户。
本系统的检索流程如图6所示。
在系统没有使用语义推理功能的情况下, 输入“蒙古族多声部音乐”这一概念进行检索时, 检索效果如图7所示。系统反馈的结果集中包含了蒙古族多声部音乐的典型代表“潮尔”、“潮尔表演形式”和“音乐结构”等概念知识。
系统使用了语义推理功能的情况下, 再次输入“蒙古族多声部音乐”这一概念进行检索, 经过语义推理后的检索效果如图8所示。在系统返回的结果集中不仅包含“潮尔”等相关概念, 而且包括潮尔的具体种类, 如“浩林潮尔”、“冒顿潮尔”等概念, 以及多声部音乐的一些表演属性, 如“单人表演”, “人声+乐器”等更详细的概念知识。
通过对150篇蒙古文音乐领域文献检索测试显示, 语义检索系统查全率达到95.6%、查准率达到93.2%, 明显高于关键词匹配检索(查全率75.2%, 查准率73.6%)。
本文虽然只是以蒙古文多声部音乐为研究对象, 但是对基于蒙古文领域本体的语义检索进行了完整的研究。由于传统的基于关键字的检索引擎在检索蒙古文信息资源时存在诸多不足, 本文利用本体实现了基于蒙古文音乐领域的蒙古文语义检索系统, 在一定程度上提升了蒙古文信息资源检索的效果, 为蒙古文语义网应用研究打下了很好的理论和技术基础, 具有很好的可推广性。
鲍玉来: 提出研究思路, 设计研究方案, 收集数据, 构建本体, 搭建系统, 起草论文;
毕强: 研究方案的设计和实现; 修改论文。
所有作者声明不存在利益冲突关系。
支撑数据由作者自存储, E-mail: 65003846@qq.com。
[1] 鲍玉来, 毕强. mongolian music.owl. 蒙古音乐本体数据.
/
〈 |
|
〉 |