利用本体资源标注实现站内检索语境导航*
李晓鹏1, 颜端武2, 蔡金霞2, 成晓2
< sup> 1< /sup> (南京大学信息管理学院 南京 210093)
< sup> 2< /sup> (南京理工大学信息管理系 南京 210094)
摘要
目前主题服务网站站内检索功能大多存在字面简单匹配、检索效果不佳、缺乏检索提示、导航机制不足等问题。结合“金陵旅游网”站内检索服务, 提出一种基于本体资源标注的站内检索语境导航实现方案。通过旅游本体构建、网站资源对象的本体标注, 设计实现信息提示导航和多维分类导航功能, 可对用户提问和检索交互进行有效引导。测评效果表明, 与传统站内检索方案相比, 本文方案在行程安排、检索效率和用户体验等方面有明显提升。
关键词: 本体资源标注; 站内检索; 语境导航
Ontology Resources Label Applied for Contextual Navigation of Website Retrieval
Li Xiaopeng1, Yan Duanwu2, Cai Jinxia2, Cheng Xiao2
< sup> 1< /sup> (School of Information Management, Nanjing University, Nanjing 210093, China)
< sup> 2< /sup> (Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China)
Abstract
Currently, the retrieval functionalities of most subject service websites have such problems as literal strings-based searching, poor retrieval effect, lack of search tips and recommendation mechanism. This paper proposes a method to construct contextual navigation of website retrieval system based on Ontology resources label.Modes of information cue navigation and multidimensional classification navigation are designed and implemented through building Ontology and labeling website resource objects, which can effectively guide users’ retrieval interactivity. The evaluation result indicates that the proposed method has significant improvements in itinerary arrangement, retrieval efficiency and user experience compared to traditional website retrieval scheme.
Keyword: Ontology based resources label; Website retrieval; Contextual navigation
1 引 言

站内检索是优秀主题服务网站不可缺少的一部分。主题服务网站为特定领域提供高质量的专业资源及深入的信息服务, 内容“专、精、深”, 且具有行业领域色彩。较之一般门户网站, 主题服务网站的用户对信息需求往往更明确也更加迫切, 因此站内检索在主题服务网站中使用率很高。

然而, 目前大多数主题服务网站的站内检索存在一些问题: 在检索匹配模式上, 大多数采用简单的字面匹配, 虽然查准率比较高, 但是容易遗漏语义相近的词语, 查全率低; 在检索结果的表达上, 多数站内检索系统只是将包
含用户查询词的网页简单罗列给用户, 当检索结果较多时, 用户很容易迷失; 目前站内检索系统大都缺乏检索提示和信息推荐机制, 在用户无法准确表达其查询需求的情况下, 不能提供有效的引导。

基于本体进行查询扩展, 进而对查询结果进行排序和分类等处理是上述问题的典型解决方案。针对字面匹配检索的弊端, 很多学者提出基于本体的语义检索方法, 如张永兴等[ 1]提出一种基于语义概念检索的向量空间模型与关键词检索结合的检索改进算法; Egozi等[ 2]提出一种基于显式语义分析 (Explicit Semantic Analysis, ESA) 的概念检索方案。针对检索结果的表达, 当前站内检索的典型处理模式有: 根据关键词相似度将检索结果排序 (如文献[3]和文献[4]) ; 利用用户访问日志确定站内网页的重要性并排序[ 5, 6]等。而对于检索提示推荐, 目前主要是根据用户提问, 在查询扩展的基础上进行推荐[ 7], 较少从用户认知和“联想”式查询的角度进行研究。从应用范围来看, 涉及主题服务网站内部资源组织和检索服务的实证研究还比较少。

本文从主题服务网站站内资源检索服务的角度, 结合用户认知过程和检索交互主要环节, 从帮助用户构建检索表达、灵活调整检索范围出发, 提出基于本体资源标注的站内检索语境导航实现方案。选择旅游领域, 以“金陵旅游网”为例详细说明站内检索语境导航方案及其实现, 并通过用户测评对检索服务效果做出评价。

2 站内检索语境导航方案设计与实现
2.1 体系结构

基于本体资源标注的站内检索主要体现了一种检索引导机制。从层次结构上, 可以将基于本体资源标注的站内检索划分为5个层次, 如图1所示。

图1 基于本体资源标注的站内检索体系结构

.

(1) 信息资源和本体层, 从Web 网页中抽取各类信息资源如图片资源、视频资源以及文字资源等, 作为站内检索系统处理的信息对象。本体提供概念知识体系的语义共享和表达;

(2) 资源组织层, 主要指对信息资源的预处理工作、对信息对象的概念标引等;

(3) 资源存储层, 将资源组织处理的结果存入数据库中, 包括网页资源元数据、资源对象概念标签索引、资源本体映射索引等;

(4) 检索处理层, 是站内检索系统的功能层, 在对用户提问进行语义处理的基础上, 由基于用户提问的信息提示导航和基于检索结果分类的多维分类导航构成语境导航。将信息提示、分类导航与一般的信息检索相结合, 有效引导帮助用户快速查找所需信息;

(5) 用户交互层, 将各种信息表征符号集成在人机交互界面上, 实现系统功能, 满足用户浏览和检索等信息获取的需求。

2.2 站内资源组织

图1的体系结构可以看出, 站内资源的有效组织是提高站内检索效率的必要前提, 是进行用户提问语义处理和构建语境导航的基础。站内资源组织主要包括两个处理环节, 即本体的构建和本体资源标注。

(1) 本体构建.

本体是系统中各项处理环节的核心和基础。本文通过对旅游主题服务类网站进行内容搜集和调研分析, 归纳本体构建的方法[ 8, 9], 借鉴研究人员已构建出的旅游领域本体[ 10, 11], 针对描述旅游相关领域知识结构、服务于“金陵旅游网”站内检索应用的需求, 构建了“金陵旅游网”本体OntoTour。

该本体构建内容如下:

①核心概念类的确定, 包括旅游、餐饮、住宿、交通、购物、娱乐6大核心概念以及城市、信息资源格式和网页内容三个一级概念;

②概念体系结构的构建, 参考国家标准《旅游资源分类、调查与评价》[ 12], 采用自顶向下的方法扩展旅游本体的概念体系结构;

③关系的确定, 重点发展上下位类 (SubClassOf) 的种属关系, 此外还存在等同关系 (SameAs) 、互逆关系 (Inverse) 、“附近车站”关系等;

④属性的确定, 主要定义了景点的门票、景点活动、餐饮、住宿地址、联系电话等常用属性;

⑤创建实例, 重点添加5部分实例, 包括景点实例51个, 住宿实例35个, 餐饮实例79个, 经过旅游景点的公交路线实例52个, 公交车站实例74个, 城市地区实例13个 (包括南京的11个区、2个县) 。

(2) 本体资源标注.

本体资源标注主要包括两部分:

①本体OntoTour的处理和转换。经Protégé[ 13]编辑后, 本体OntoTour以OWL文件的形式存储于计算机中。为了便于对站内资源进行概念标引, 笔者将本体转换成XML文件, 利用JDOM生成本体可视化的树形结构。此外, 提取本体OntoTour中同义的概念组对, 生成同义词典, 在一定程度上实现语义检索功能, 弥补了基于字面匹配检索的缺陷; 提取具有上下位类关系的概念三元组, 为语义检索和检索分类导航的构建提供数据支持。

②资源概念标注。资源概念标注的作用就是将Web网页中的资源对象按照一定的规则组织起来, 使之成为结构化的、有序的信息, 从而支持信息检索服务。旅游网站Web页面包括文本、图片、视频等资源。参考主题标引方法, 将网页中文本、图片和视频分离出来, 运用本体中的概念术语对资源对象进行主题标引, 添加概念标签, 使资源对象与本体概念节点构成多对多的映射关系。即数据库存储中, 除了资源对象本身的信息外, 增加了与本体概念映射的概念标签字段, 使URL地址、图片、视频等多媒体资源具有本体概念的规范化语义表述。

2.3 语境导航服务

基于本体资源标注对站内资源进行有效组织后, 站内检索系统就可以根据用户提问进行相应的语境导航服务。本文设计的语境导航包括信息提示导航和多维分类导航两个模块, 分别针对用户提问和检索结果进行导航。

(1) 基于用户提问的信息提示导航.

根据用户需求, 信息提示导航主要提示三方面的相关信息: 概念实例的基本属性、概念实例的类目体系、概念实例有关的推荐信息, 如图2所示。

图2 信息提示导航设计思路

.

信息提示导航模块处理步骤如下:

①从本体找到对应的概念实例节点, 利用Jena推理机组件查询概念实例的属性及其属性值;

②查找概念实例的上下位类以及兄弟节点, 构成树形类目体系结构。其具体操作是: 从实例开始根据关系逐级向上查找直到顶级核心类目, 再由实例的上位类根据实例关系向下查找得到它的兄弟实例, 将两部分组合构成一个树形结构即为实例所属类目的体系结构;

③基于Jena的本体推理功能, 获取其他相关推荐信息, 主要包括行车路线和周边信息。到某地的行车路线通过本体推理得出, 推理过程算法如下。周边信息的推理过程与行车路线算法类似, 此处不再赘述。

算法1 行车路线推理算法.

输入: 本体中的实例I.

输出: 行车路线P.

算法处理:

1) 本体构建时, 将实例I与其附近的公交车站Si (i=1, 2, …n) 通过关系“附近车站”相关联。

2) 本体构建时, 将公交路线P与其经过的公交车站Sj (j=1, 2, …m) 通过关系“路径站点”相关联。创建关系“行车路线”, 将行车路线设置成与“路径站点”为互逆关系 (Inverse) 。

3) 查找与实例I通过“附近车站”关系相连的所有公交车站实例, 构成实例I的附近车站集合S (S1, S2, …Si, …Sn) 。

4) 查找与附近车站Si通过“行车路线”关系相连的所有公交路线实例, 构成实例Si的行车路线集合Pi (Pi1, Pi2, …Pij, …Pim) 。

5) 合并所有行车路线P1∪P2…∪Pn。最后生成实例I的行车路线P (P11, P12, …P1k, …Pi1, Pi2, …Pim, …Pn1, Pn2, …PnM) 。

(2) 基于检索结果的多维分类导航.

通过对用户的检索行为研究发现[ 14], 用户查询信息时通常会先使用关键词检索, 在此基础上再通过分类导航缩小检索范围, 从而提高信息检索的效率, 并且使得原本排在后面的查询结果也可能被用户关注。

基于检索结果的多维分类导航建立在网站资源对象本体标注的基础上, 该工作在上述网站资源组织中已经完成。接受用户查询提问后, 检索结果多维分类导航的处理流程主要包括以下三个步骤:

①用户查询处理.

本文设计的站内检索系统采用语义扩展的思路对用户查询处理, 分为两步: 利用本体包含的同义词词典对用户提问进行规范化处理, 转换成本体中规范的概念描述, 并进行下位类语义扩展, 从而构成用户提问的概念集合, 丰富检索项的语义信息; 将扩展的提问集合与网站信息资源的概念标签进行匹配, 得到检索结果数据, 存储为临时表。对用户查询的语义处理, 克服了简单字面查询匹配存在的语义信息缺失问题, 提高了检索的查全率。

②检索结果概念词统计.

获取检索结果后, 对所有检索结果的概念标签中出现的概念词语及其次数进行统计, 形成检索结果的概念词频统计表。

③构建多维分类导航.

在本体中查找检索结果的标引概念, 获取该概念的上位类, 根据本体中概念的上下位类关系, 按照以下算法构建具有一定层次结构的分类导航, 并在类目后面标记该类目对应的网站资源对象的数量。具体算法如下:

算法2 分类导航树形结构生成算法.

输入: 检索结果概念集合 (C1, C2, …Cn) , 本体体系结构.

输出: 分类导航树形结构.

算法处理:

1) 在本体中查找概念集合中每个概念Ci的上下位类, 构建Ci二元概念组< Cif, Ci> 。Cif表示Ci的上位类。

2) 以C1三元概念组创建初始分类树T, 构建分类概念集合C (C1f, C1) 。

3) 判断概念集合C中是否包含Ci概念组< Cif, Ci> 中Cif。若包含转步骤4) , 若不包含转步骤5) 。

4) 判断概念集合C中是否包含概念组< Cif, Ci> 中Ci, 若存在, 则i=i+1转步骤3) ; 若不包含, 在分类树T的Cif节点下添加子节点Ci, 并将Ci添加到概念集合C中, 再设置i=i+1转步骤3) 。

5) 判断概念集合C中是否包含概念组< Cif, Ci> 中Ci, 若存在则在分类树T中增添Cif节点, 将以Ci为根节点的树链接到Cif下, 将Cif添加到概念集合C中, 设置i=i+1转步骤3) ; 若不存在, 在分类树T的增添新根节点Cif, 再添加它的子节点Ci, 并将Cif和Ci添加到概念集合C中, 设置i=i+1转步骤3) 。

6) 返回分类树T。

基于检索结果的多维分类导航是一种基于本体概念体系和检索结果的多维分类呈现, 该分类导航的优点在于: 本体规范的概念集和体系结构保证了分类导航的科学性和逻辑性; 只对检索结果构建分类体系, 将与用户检索目标无关的类目排除, 有效减轻了用户对分类导航的认知负荷; 将分类导航作为关键词检索的辅助工具, 能有效帮助用户改善检索表达式, 扩展检索意图, 调整检索范围。

3 效果与评价
3.1 实现效果

以查询“中山陵”为例, 信息提示导航的实例属性和类目体系界面如图3所示, 相关信息推荐如图4所示:

图3 信息提示导航——属性和类目体系

图4 信息提示导航——相关推荐

.

基于用户提问的信息提示导航不是根据开发者自己的理解设计而成, 而是以本体作为知识基础, 从而保证提示内容的规范一致性。相关信息推荐对用户信息获取具有启发作用, 支持用户“联想”式认知和人机交互体验。

以查询“湖泊”为例, 用户输入查询提问后, 系统首先基于本体同义词词典对检索词进行规范, “湖泊”的规范描述为“水域景观”。再对“水域景观”进行语义扩展, 主要采取下位类填充的方法, 提问概念集合如表1所示。

表1 查询词语义扩展的提问集合

然后将扩展的提问集合与网站信息资源进行匹配, 存储为临时表。最后对检索结果的概念标签中出现的概念进行词频统计, 根据标引词的上下位类关系, 构建树形分类导航, 并将词频标注在分类导航树中, 如图5所示:

图5 检索结果多维分类导航

.
3.2 用户评价实验

采用观察法与问卷调查相结合的形式设计并组织了系统评价实验。选择与“金陵旅游网”功能内容类似的“南京旅游网”作为比照对象, 从旅游行程安排、信息查询效率、用户主观评价三方面对实验数据进行统计分析。

(1) 实验流程设计.

被试对象: 在校大学生56人。 实验情景: 游客从外地来南京旅游 (不跟旅行社) , 旅游行程安排如下: 上午游览中山陵、灵谷寺, 下午参观夫子庙。请完成旅游行程规划。

任务1: 从中山陵到灵谷寺的乘车公交路线;
任务2: 参观完灵谷寺后, 中午在灵谷寺附近就餐, 选择的餐馆;

任务3: 下午参观夫子庙, 从灵谷寺到夫子庙的乘车公交路线;

任务4: 晚上在夫子庙附近就餐, 选择的餐馆;

任务5: 晚上在夫子庙附近住宿, 选择的酒店。

其中任务1和任务3为搜索公交路线, 任务2、任务4和任务5为查找景点周边资源。通过观测用户在普通旅游网站和语境导航检索系统完成上述5个任务的效率和准确率, 对语境导航的有效性进行分析评价。

实验指标:

①任务完成率。表明用户在一定的时间内是否在网站上找到答案, 是否存在中途放弃的现象。

②回答准确率。在本实验中是指搜索到的公交线路是否正确, 选择的餐馆酒店是否满足任务中所描述的靠近某景点的要求。

③信息查询效率。在完成查询任务的情况下, 用户的平均点击页面数和平均的搜索时间。

④用户主观评价。实验后采用问卷形式请被试者对语境导航信息提示的有效性进行打分。

(2) 实验结果分析.

实验结果数据如表2-表4所示:

表2 旅游行程安排完成率和准确率比较
表3 信息查询效率比较
表4 实验用户对语境导航的主观评价
(注: 有效人数46人) .

结果表明, 在旅游行程安排上, 使用语境导航完成任务的完成率 (97%) 和准确率 (95%) 均高于没有任何辅助的普通站内检索的完成率 (88.46%) 和准确率 (92.74%) , 尤其在旅游资源地理周边信息查询方面明显优于普通旅游网站; 在信息查询效率上, 使用语境导航完成任务所点击的页面数 (12.08页) 和搜索时间 (575.15秒) 都小于普通站内检索 (16.72页, 820.08秒) ; 用户的主观评价结果显示, 93.48%的用户认为语境提示导航对快速查找旅游信息有帮助。

综合上述用户测评结果可以看出, 与传统站内检索服务相比, 本文设计的语境导航在旅游信息查询方面能起到有效的帮助和提示作用, 辅助用户解决旅游规划中的一些实际问题, 提高用户查找旅游信息的效率和交互体验。

4 结 语

本体的构建与应用、基于用户认知的系统设计是目前的研究热点, 本文将两者结合起来构建了一个具有语境导航服务功能的站内检索系统, 包括信息提示导航和多维分类导航两大功能, 具有实践应用参考价值。

从网络空间和用户认知看, 本文考虑了网站信息资源的关联关系, 支持用户的“联想”式检索交互; 从检索结果呈现看, 依据本体概念体系对检索结果进行分类, 方便用户灵活调整检索范围。未来工作主要包括本体内容的完善、语境导航原型系统与原有网站系统的整合, 以及真实用户环境下的进一步使用测试。

参考文献
[1] 张永兴, 孙四明, 张峰. 基于本体的信息检索系统研究[J]. 微计算机信息, 2011 (7) : 125-127, 94. (Zhang Yongxing, Sun Siming, Zhang Feng. Ontology-based Information Retrieval System[J]. Microcomputer Information, 2011 (7) : 125-127, 94. ) [本文引用:1]
[2] Egozi O, Markovitch S, Gabrilovich E. Concept-based Information Retrieval Using Explicit Semantic Analysis[J]. ACM Transactions on Information Systems, 2011, 29 (2) : 1-38. [本文引用:1] [JCR: 1.07]
[3] Liu T Y. Learning to Rank for Information Retrieval[J]. Foundations and Trends in Information Retrieval, 2009, 3 (3) : 225-331. [本文引用:1]
[4] 周博, 岑荣伟, 刘奕群, 等. 一种基于文档相似度的检索结果重排序方法[J]. 中文信息学报, 2010, 24 (3) : 19-23, 36. (Zhou Bo, Cen Rongwei, Liu Yiqun, et al. A Document Relevance Based Search Result Re-Ranking[J]. Journal of Chinese Information Processing, 2010, 24 (3) : 19-23, 36. ) [本文引用:1] [CJCR: 1.13]
[5] 贺海波. 基于日志挖掘的查询词推荐研究与实现[D]. 北京: 北京邮电大学, 2010. (He Haibo. Research and Application of Extracting Semantic Relations on Mining Query Logs[D]. Beijing: Beijing University of Posts and Telecommunications, 2010. ) [本文引用:1]
[6] 詹圣君. 基于用户行为日志分析的搜索引擎排序算法研究[D]. 武汉: 湖北工业大学, 2011. (Zhan Shengjun. Based on User Behavior Log Analysis of Search Engine Ranking Algorithm[D]. Wuhan: Hubei University of Technology, 2011. ) [本文引用:1]
[7] 章成志, 徐小琴. 信息检索系统的相关词提示技术与评测[J]. 情报理论与实践, 2007, 30 (1) : 100-104. (Zhang Chengzhi, Xu Xiaoqin. Technologies for Finding Clues for Correlated Words in Information Retrieval Systems and Its Evaluation[J]. Information Studies: Theory & Application, 2007, 30 (1) : 100-104. ) [本文引用:1] [CJCR: 1.5]
[8] 尚新丽. 国外本体构建方法比较分析[J]. 图书情报工作, 2012, 56 (4) : 116-119. (Shang Xinli. Comparative Analysis of Foreign Ontology Construction Methods[J]. Library and Information Service, 2012, 56 (4) : 116-119. ) [本文引用:1] [CJCR: 1.193]
[9] 车成逸, 马宗民, 焦晓龙. 基于结构化信息源的本体构建方法综述[J]. 计算机应用研究, 2012, 29 (7) : 2406-2410. (Che Chengyi, Ma Zongmin, Jiao Xiaolong. Survey on Methodology for Constructing Ontology Based on Structured Information Source[J]. Application Research of Computers, 2012, 29 (7) : 2406-2410. ) [本文引用:1] [CJCR: 0.601]
[10] 徐守坤, 马慰, 马正华. 基于本体的旅游资源二次推荐方法研究[J]. 计算机应用研究, 2012, 29 (11) : 4180-4184. (Xu Shoukun, Ma Wei, Ma Zhenghua. Research on Double Recommendation Method for Tourism Resources Based on Ontology[J]. Application Research of Computers, 2012, 29 (11) : 4180-4184. ) [本文引用:1] [CJCR: 0.601]
[11] 冯欣, 王成良. 本体在旅游信息系统中的应用研究[J]. 计算机与现代化, 2010 (3) : 128-132. (Feng Xin, Wang Chengliang. Applications of Ontology for Tourism Information System[J]. Computer and Modernization, 2010 (3) : 128-132. ) [本文引用:1] [CJCR: 0.3579]
[12] 尹泽生. 旅游资源详细调查实用指南: GBT18972-2003《旅游资源分类、调查与评价》理解与实施[M]. 北京: 中国标准出版社, 2006. (Yin Zesheng. A Practical Guide for Detailed Survey of Tourism Resources: Understand ing and Implementation of GBT18972-2003 《Classification, Investigation and Evaluation of Tourism Resources》[M]. Beijing: Chinese Stand ard Publication, 2006. ) [本文引用:1]
[13] Gennari J H, Musen M A, Fergerson R W, et al. The Evolution of Protégé: An Environment for Knowledge-based Systems Development[J]. International Journal of Human-Computer Studies, 2003, 58 (1) : 89-123. [本文引用:1] [JCR: 1.415]
[14] Case D. Looking for Information: A Survey of Research on Information Seeking, Needs, and Behavior [M]. The 3rd Edition. Emerald Group Publishing, 2012. [本文引用:1]