信息可视化检索在数字图书馆中的应用实践
钱力1,2, 张智雄1, 邹益民1,2, 黄永文1
1.中国科学院国家科学院图书馆 北京 100190
2.中国科学院研究生院 北京 100049
摘要

从信息可视化能够深层揭示知识之间的关系为切入点,将信息可视化检索应用到数字图书馆中,从检索过程、检索结果以及结果之间关系的角度实现主题可视化、来源数据库分布可视化、时间分布可视化和作者合著关系可视化,使用户从视觉上实现和计算机的交互,从而也使一种新的服务模式应用于数字图书馆。

关键词: 信息检索; 信息可视化; 数字图书馆; 知识发现
Application of Information Visualization Retrieval in Digital Library
Qian Li1,2, Zhang Zhixiong1, Zou Yimin1,2, Huang Yongwen1
1.National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2.Graduate University of Chinese Academy of Sciences, Beijing 100049, China
Abstract

For information visualization reveals the relationships between knowledge deeply, this paper applies information visualization retrieval to digital library. From the angle of the search process, search results and the relationships of results, it respectively achieves the visualization of subject, original database time distribution and co-author visualization, allowing users to visually interact with the computer, and thus making a new service model application in digital library.

Keyword: Information retrieval; Information visualization; Digital library; Knowledge discovery
1 引 言

数字信息时代的图书馆,已经不再是传统意义上的藏书和提供电子资源的物理图书馆,而让数字图书馆驱动图书馆服务创新发展[ 1],提供知识服务的复合式数字图书馆的模式正在逐步占据未来的主导方向。信息可视化作为将信息有效组织、分析、揭示的一种服务模式,已经成为当前情报分析和知识挖掘服务的一个热点,其主要目的是将信息形象直观化,科学地揭示知识信息点之间的直接与间接关系,使用户能够充分发挥自己的灵活性、创造力和想象力来搜寻信息,发掘信息资源的最大价值。在这一理念下,本文利用可视化技术实现信息检索过程与结果的可视化展示,并将检索结果以文字模式进行分面揭示,从而实现了图形与文字两种场景模式的融汇服务,增强了信息检索服务能力,为科研人员开展研究活动提供了新的手段。

2 信息可视化检索发展及现实需求

Robertson,Card和Mackinlay在用户与机器的交互性认知方面,提出信息可视化(Information Visualization)这一概念,很大程度上提供了相应解决方案,将海量数据进行可视化揭示,使其更直观地展现在用户面前[ 2];而且,可视化为用户提供了一个知识探索的空间平台,增强了用户对这些抽象信息的认识,通过与计算机进行形象化交互,快速地观察、认知、加工有关信息,发现潜在的本质规律并制定决策。

2.1 国内外发展现状

信息可视化作为一种关键服务理念与技术手段,在处理复杂异构数据方面有很大的优势,比如发布Web中新闻事件、Blog、Facebook等网络数据时,首先利用可视化模型转化为结构化数据[ 3],同时将隐藏在网络中的关联关系以图形化的方式揭示,这对当前的虚拟社区发展提供了决策依据。

Grünfeld[ 4]提出以可视化的方式来监测空间数据,其处理的是大规模环境监测数据,但是都分布在无规则的网格中,分析和表示起来很困难,通过XmdvTool可视化工具,使用平行坐标系和散点图布局技术,对监测数据进行集成分析与探索,从中发现了一些新颖的样本成分。

Wong等[ 5]在2011年第一届TPDL会议中,演示了其所研究INVISQUE可视化检索系统,即基于交互式的可视化检索与查询。INVISQUE使用一个索引卡片的方式来揭示图书馆内容,集成了例如引用、出版日期等元数据属性,能够很直观地发现最新发表的文献与引用最多的文献。

Groxis[ 6]是一种信息管理与搜索工具,通过实现动态聚类、可视化结果地图,来提高用户探索、组织与共享数字信息。目前,Groxis也开发了强大的社会协作工具,方便了有效知识信息的共享。AquaBrowser[ 7]作为Serials Solutions公司的商业产品,以可视化“词云”的方式,使用“检索、发现、提炼”的方法体系,帮助用户更快、更容易地揭示相关资源。

目前,信息可视化检索在国内的发展也很迅猛,但是主要还是集中在理论研究、技术方法的探讨以及实验应用,真正的实际应用仍然很少,其中武汉大学信息资源研究中心开发的“信息可视化与知识检索原型系统”是教育部人文社会科学重点研究基地重大项目“信息可视化与知识检索”的研究成果之一[ 8]。许德山等[ 9]将科研本体知识进行可视化,同时实现了检索推理,既提高了检索的智能性,又将检索的过程与结果进行了可视化,增强了用户与系统的交互,提高了用户体验。江潇俊等[ 10]也基于本体进行关联检索,同时进行可视化揭示。

2.2 应用需求分析

在本研究中,提出了信息可视化检索,从检索过程和检索结果两个角度,重新对数据信息进行组织、检索、分析与表示,形成一个交互性的立体式多维揭示平台。笔者从过程可视化与结果可视化两个需求角度进行分析,设计并实现了信息可视化检索平台。

(1)信息检索过程可视化

传统的检索方式基本都是提问式检索模式,整个中间的检索过程对于用户来说是完全封闭的。而信息检索过程可视化模式,将整个检索过程尽可能地呈现在用户面前,用户可以通过可视化图标的操作方法,与系统平台在一个可视化界面中进行交互式发送请求,使检索行为更人性化、直观化;同时,用户从发送检索命令到结果的呈现,各个检索步骤都在可视化界面中得到很好的揭示,更加明确了用户检索的目标性,从而帮助用户更加准确、方便地发送检索请求。

(2)信息检索结果可视化

通过设计信息检索的接口,进行检索结果的分面统计、聚类、共著、共引等方法的深度挖掘,利用可视化技术,将数据集中看不见的抽象数据和数据之间的语义关系以一种可视化的方式呈现在用户场景中,让用户充分发掘信息资源中潜在的价值资源,帮助用户更好地组织、分析与利用信息。

3 信息可视化检索应用中关键技术实现

信息可视化检索方式是对传统检索方式的一种挑战,因为它本身具有一定的特点与难点:

(1)海量数据以何种方式进行可视化揭示,能够增强用户的认知程度;

(2)海量数据的组织、整合、传输通信以何种方法进行处理,涉及到数据处理机制、数据模型创建及传输效率的考虑;

(3)可视化过程,即可视化流程中可视化场景如何设计、如何驱动过程与结果的可视化。

本文通过调研与研发相关技术,从以下三个方面进行了突破与实现。

3.1 Flex和Java协同开发

可视化检索的后台基于J2EE框架开发,鉴于要接收、处理多种数据类型的特殊需求,而且检索结果的数据集也相对很大,本文使用Flex和Java协同开发的高效工具集BlazeDS,以插件的形式集成到系统中,同时采用了其中的RemoteObject方法,此方法基于AMF协议的高效数据通信手段,有效解决数据集类型的多样性和数据通信问题,具体实现如图1所示:

图1 数据交互通信结构图

3.2 数据映射机制

可视化检索过程中,一个关键的问题是数据的组织与处理,同时又要处理大数据集。根据这个特点,设计一个插件服务式的“数据映射机制”,过程如下:根据可视化模型,设计相应的数据处理算法集成到系统中;可视化引擎来驱动原始数据的录入处理,根据引擎规则算法自动处理、转换成可视化数据格式;传输到可视化组件中进行可视化展示。按照可视化模型有多种格式,本文采用GraphML数据模型进行检索结果数据的组织与整合。整个过程如图2所示:

图2 可视化数据映射机制

3.3 可视化引擎的设计

通过可视化引擎的设计,实现了可视化视图的自动化、智能化,通过配置文件的方式来设计整个引擎规则,从而驱动用户可视化流程的场景,即从点击图标发送检索命令到数据的处理、组织与整合,最后进行可视化揭示。

可视化引擎设计实现中,采用了组件化可视化模型、插件化数据组织与整合,从而增强了整个引擎的可配置性,具体如图3所示:

图3 可视化引擎示意图

3.4 可视化模型BirdEye的应用实现

国内外有很多成熟的可视化模型,为用户的丰富体验打下了基础,如多重参考点可视化模型(MRPBM)、基于欧几里得空间特征的可视化模型(ESCBM)、探路者关联网络(PFNET)、多维尺度模型(MDS)、自组织图模型(SOM)等主要的信息检索可视化模型[ 11],很好地提供了可视化喻意。而BirdEye开源组件,实现了上述几种模型,笔者在此框架上进行二次开发,以满足对数字图书馆信息检索的需求应用。

4 信息可视化检索系统设计与实现
4.1 系统设计

系统设计采用B/S结构,以J2EE技术平台为基础,与Flex应用程序嵌入式结合,共同搭建了一个具有可扩展性、灵活性、易维护性的可视化信息检索平台,为用户提供一个图形化的场景。在本系统中,信息可视化检索主要体现在信息资源主题的可视化、数据库可视化、年代可视化和作者可视化4个部分,其系统设计逻辑结构如图4所示:

图4 系统设计逻辑结构图

该系统主要包括多维度检索接口(基于Solr索引机制,对多种数据库建立统一索引,从而实现了资源高效检索,并保证检索资源的全面性与准确性)、数据映射机制、可视化引擎与用户终端,同时系统对可视化中间结果进行保存,方便用户的查找。

4.2 可视化技术的应用

本系统采用了以Flex和ActionScript3.0为基础的可视化技术。

Flex[ 12]是一个针对企业级富互联网应用(Rich Internet Applications,RIA)的客户端解决方案,具有良好的交互性。

在可视化技术的实际应用中,利用面对对象的思想,设计的可视化组件具有很强的扩展性、易维护性、组件的重用性等特点,能够更快、更方便地应用到需要实现信息可视化的系统中。在系统实现中,使用Flex应用程序与J2EE工程嵌入式结合,共同构建信息可视化检索平台,其中,为用户呈现的方法是可视化组件嵌套在前台网页中,实现方法如下:

<object classid="clsid:D27CDB6E-AE6D-11cf" id="visualsrch" width="100%"height="100%"

codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab">

<param name="movie" value=" /visualsrch.swf"/>

<param name="quality" value="high" />

<param name="bgcolor" value="#ffffff" />

<param name="flashVars" value="searchKey=<%=sessiontext%>"/>

<param name="allowScriptAccess" value="sameDomain" />

<embed src="/ visualsrch.swf" quality="high" bgcolor="#ffffff" width="100%" height="100%"

name="visualsrch" align="middle" play="true" loop="false"

quality="high" allowScriptAccess="sameDomain"

type="application/x-shockwave-flash" flashVars="searchKey=<%=sessiontext%>"

pluginspage="http://www.adobe.com/go/getflashplayer">

</embed>

</object>

其中,visualsrch.swf文件是设计的可视化组件,flashVars="searchKey=<%=sessiontext%>",是可视化组件要接收的参数,当完成可视化组件的载入之后,可视化组件以事件驱动机制,自动加载检索结果数据集,然后经过重新组织、分析,以图形化的模式呈现给用户。

(1)信息资源主题可视化检索

当可视化组件接收到检索结果集之后,以文献的标题为主题词进行主题动态聚类,为了进行深层次的知识揭示,同时实现了在子结果集上进行二次聚类,操作示意图如图5所示:

图5 信息可视化检索系统

具体操作方法与过程如下:球体颜色代表当前的一个主题、球体大小代表当前主题包含的信息量、显示文字的Label代表当前主题的名称,开始默认的是第一层,用户可以拖、拉、拽图形中的各个主题节点图标,通过点击各个节点图标可以实现对当前主题内的文献进行二次主题聚类,同时,在页面右部空间中列出所点击主题相关的文献资源,整个的信息检索过程用户全程参与,在可视化界面中与系统进行交互,完成相应知识资源的检索。从用户的心理与认知学角度考虑,图形下方提供了对布局、节点、连线以及缩放等方面的个性化设置。

通过主题可视化检索,用户可以在页面左部的可视化界面中发现知识关联关系,同时用户以可视化的方式进行检索,通过图标操作很快发现需要的资源,提高了检索效率,而且将知识关系进行图形化表示。

(2)信息来源数据库、时间分布和作者合著关系可视化检索

来源数据库、时间分布和作者合著关系可视化是从另外三个角度对当前检索结果集的分面可视化,同时与主题可视化检索类似,用户都可以在图形化界面中与系统进行交互,整个检索过程也得到了很好的体现,一方面实现了从多个角度来揭示检索结果中隐藏的规律和联系,另一方面用户的交互性参与,既提高了检索效率,又改善了检索质量,因为整个过程是用户认知、思考的过程,更符合他们的需求现实,如图6所示:

图6 主题、来源数据库、时间分布和作者合著关系可视化检索

来源数据库分布可视化:通过饼状图对当前结果进行揭示,使用不同的颜色和区域面积对一种数据库的信息量进行标注;

时间分布可视化:通过柱状图对当前结果进行揭示,每一年的发文量清晰可见,同时可以了解检索主题在每一年的发文量的变化趋势;

作者合著关系可视化:按作者的编著篇数进行排序及展示出前20位,同时把作者之间的共著关系通过线条进行标注。

5 结 语

本研究成果已经应用到中国科学院国家科学图书馆的可视化跨库检索系统中,同时笔者跟踪访谈了中国科学院的生物物理研究所、高能物理研究所、力学研究所等8个单位,调查显示93.3%的用户认为可视化跨库检索比起传统检索方式更具有发展前景,尤其在信息发现过程的交互性与探索性方面为科研人员知识发现提供了新的手段。同时也发现了一些问题,可视化服务的速度以及揭示出相关知识单元的准确度方面还需要进一步完善,在下一阶段的工作中,准备结合“知识组织体系”来对存在的问题进行逐步改进。

总之,信息可视化检索具有的高效知识信息获取的创新平台、丰富的可视化模型、人机结合的个性化交互环境以及知识信息的多维揭示,都为数字图书馆提供了一种新的服务模式。随着图书馆服务创新思潮的兴起,信息可视化检索将有着良好的应用前景。

参考文献
[1] 张晓林. 让数字图书馆驱动图书馆服务创新发展——读《国际图联数字图书馆宣言》有感[J]. 中国图书馆学报, 2010, 36(3): 73-74.
(Zhang Xiaolin. Digital Library Drives the Innovation and Development of Library Service——Feeling of Reading the IFLA Digital Library Manifesto[J]. Journal of Library Science in China, 2010, 36(3): 73-74. ) [本文引用:1] [CJCR: 2.697]
[2] McCormick B H, DeFanti T A, Brown M D. Visualization in Scientific Computing[J]. Computer Graphics, 1987, 21(6): 640-645. [本文引用:1] [JCR: 1.125]
[3] Tsuyoshi Murata. Extraction of Structural Information from the Web [C]. In: Proceedings of the 2nd International Conference on Fuzzy Systems and Knowledge Discovery. Berlin, Heidelberg: Springer-Verlag, 2005. [本文引用:1]
[4] Grünfeld K. Integrating Spatio-temporal Information in Environmental Monitoring Data——A Visualization Approach Applied to Moss Data[J]. Science of the Total Environment, 2005, 347(1-3): 1-20. [本文引用:1] [JCR: 3.258]
[5] Wong B L W, Choudhury S, Rooney C, et al. INVISQUE: Technology and Methodologies for Interactive Information Visualization and Analytics in Large Library Collections[C]. In: Proceedings of International Conference on Theory and Practice of Digital Libraries(TPDL), Berlin, Germany. 2011. [本文引用:1]
[6] Groxis [EB/OL]. [2011-06-22]. http://www.groxis.com. [本文引用:1]
[7] AquaBrowser [EB/OL]. [2011-06-22]. http://www.serialssolutions.com/en/services/aquabrowser. [本文引用:1]
[8] Jin Zhang. 信息检索可视化[M]. 夏立新, 陈伟, 沈吟东, 等译. 北京: 科学出版社, 2009.
(Jin Zhang. Visualization for Information Retrieval[M]. Translated byXia Lixin, Chen WeiShen Yindong, et al. Beijing: Science Press, 2009. ) [本文引用:1]
[9] 许德山, 张智雄. 面向本体知识库的可视化检索研究[J]. 情报理论与实践, 2010, 33(8) : 114-117.
(Xu Deshan, Zhang Zhixiong. Research on Visual Retrieval Oriented to Ontology Knowledge Base[J]. Information Studies: Theory & Application, 2010, 33(8): 114-117. ) [本文引用:1] [CJCR: 1.5]
[10] 江潇俊, 李善平. 基于本体的关联知识可视化检索模型[J]. 计算机工程, 2011, 37(16): 54-56.
(Jiang Xiaojun, Li Shanping. Ontology-based Related Knowledge Visualization Retrieval Model[J]. Computer Engineering, 2011, 37(16): 54-56. ) [本文引用:1] [CJCR: 0.492]
[11] Gershon N D, Eick S G. Information Visualization[J]. IEEE Computer Graphics and Applications, 1997, 17(4): 29-31. [本文引用:1] [JCR: 1.228]
[12] Jeff Tapper, Michael Labriola, Matthew Botes, . Flex3权威指南[M]. 杨博, 杜昱宏译. 北京: 人民邮电出版社, 2009.
(Jeff Tapper, Michael Labriola, Matthew Botes, et al. Adobe Flex 3 Training from the Source[M]. Translated byYang Bo, Du Yuhong. Beijing: Posts & Telecom Press, 2009. ) [本文引用:1]