从VAST会议解读可视分析学新进展
邱均平1, 余厚强2
1武汉大学中国科学评价研究中心 武汉 430072
2武汉大学信息管理学院 武汉 430072
通讯作者: 余厚强:E-mail:yuhouq@yeah.net

作者贡献声明:

邱均平: 提出研究方向, 参与论文修订;

余厚强: 设计研究思路, 收集数据, 撰写论文并进行修订。

摘要

【目的】 对可视分析学的最新进展做全面梳理, 探讨其在图书情报学领域的深入应用, 以期为后续研究提供参考。【方法】 研究比较可视分析学的若干特点, 基于VAST会议近5年的论文, 从意义构建及合作、文本分析、高维数据可视分析、空间时间分析和应用实例5个方面进行梳理总结。【结果】 阐明可视分析学的根本原理和跨学科属性, 发现主要从开发新算法、改进现有模型和变换研究角度等方面拓展可视分析学研究。【结论】 可视分析学目前围绕意义构建基础算法和设计原则, 重点突破文本分析、高维数据和空间时间数据, 探索全面应用, 是高度面向应用的学科, 且应用面非常广泛, 虽然还处在发展期, 但能为信息服务尤其是智能服务提供方法论支持。

关键词: 可视分析学; 信息可视化; 意义构建; 高维数据; 情报学
中图分类号:G350
The Research Development of Visual Analytics from the Perspective of VAST Conference
Qiu Junping1, Yu Houqiang2
1 Research Center for China Science Evaluation, Wuhan University, Wuhan 430072, China
2School of Information Management, Wuhan University, Wuhan 430072, China
Abstract

[Objective] A thorough summarization is done on the latest development of Visual Analytics. Further application into library and information science areas is discussed.[Methods] Firstly several characteristics of visual analytics are compared, then based on VAST papers past five years, the paper summarizes from five aspects including sensemaking, text analytics, high dimensional data visual analysis, spatial and temporal analysis, and application cases.[Results] The basic principles and interdisciplinary attributes are explored. It’s found that visual analytics studies are mainly conducted from angles of developing new algorithms, improving existing models and changing research perspectives etc.[Conclusions] Visual Analytics researches focus on constructing sensemaking basic algorithms and design principles, making breakthroughs in text analytics, high dimensional data, and spatial and temporal data analysis. Visual analytics is highly application oriented and widely used, and provides methodological support for information service, especially the intelligent service, although it is still in the developing stage.

Keyword: Visual; analytics; Information; visualization; Sensemaking; High; dimensional; data; Information; science
1 引言

在信息过载时代, 每个行业都在不断产生大量未经过滤或精炼的数据, 人们收集和存储数据的速度要远大于利用这些数据进行决策的速度, 使得确立方法和模型, 让数据转换成可靠和综合的知识成为关键所在。就像信息可视化改变了数据库的视图, 可视分析学(Visual Analytics)将会使人们处理数据和信息的方式更加透明, 最终将信息过载转化为机遇。可视分析学是信息可视化发展到一定阶段的必然产物, 其实质是从证实性数据分析向探索性数据分析的变迁。虽然统计学家Turkey[ 1]早在1977年就对这种思想有过论述, 但是直到近年, 随着图形化用户界面和交互设备性能的技术进步, 通过有效的可视化技术、交互能力和知识转移, 学者才有机会逐步将用户融入到知识发现和数据挖掘过程中。“可视分析学”的术语最早由Wong等[ 2]于2004年提出, Thomas等[ 3]将可视分析学定义为“由高度交互可视化界面支撑的分析推理的科学”, 定义简洁明确, 现已得到广泛认可和引用[ 4]。自2006年起IEEE每年召开VAST(Visual Analytics Science and Technology)国际会议, 致力于交流世界范围内可视分析学的最新进展, 成为追踪可视分析学研究的窗口。

本文首先比较分析可视分析学研究的特点, 通过对近5年VAST会议论文的计量分析和内容分析, 揭示了可视分析学的最新进展, 并结合图书情报学领域的现实情况论证可视分析学的应用前景, 指出图书情报学领域要加强可视分析学的深入研究, 以期为国内相关领域学者提供启发和参考。

2 可视分析学研究的特点
2.1 可视分析学的根本原理

可视分析学的根本原理[ 5]是将可视化作为半自动分析过程的媒介, 人类和机器合作, 利用各自特有的能力, 去获得最有效的结果。具体来说, 可视分析学将创新性交互技术和可视化表示融入到新的计算转换和数据分析工具中, 这些工具的设计基于认知的、设计的和感知的原则, 信息可视化成为用户和机器之间的直接界面, 由分析推理科学提供推理框架, 在其上架构战略和战术的分析技术, 使用户获得深入洞见, 能直接支持情境评价、计划和决策制定。可视分析学从6个基本方面[ 6]放大了人类感知能力:

(1) 增加感知源, 如通过可视化源来拓展人类工作记忆;

(2) 减少搜索, 例如在小空间中表示大量数据;

(3) 增强模式认知, 如在空间中展示具备时间序列特征的信息;

(4) 支持关系可感知的简易推理;

(5) 对大量潜在事件的感知监测;

(6) 提供可操作的介质, 与静态图不同, 能允许探索参数值的表示空间。

Keim等[ 4]把可视分析学的基本流程概括为: 先分析、展示重要的, 缩放、过滤和深入分析, 根据需要展示细节。关键是明确分析任务的最佳自动化算法, 识别不能进一步自动化的局限, 然后开发出一个集成化方案, 充分集成这些自动分析算法, 使用恰当的可视化和交互技术, 通过学习用户行为和有效利用可视化, 最后创造性地理解和感知问题, 为分析过程带来更多智慧。可视分析学将形成分析过程和模型的建构式评价、修正和迅速提高, 最终改善知识和决策, 将科技应用到计算和可视化, 分析报告和技术转移上, 促进分析推理、数据交互、数据转换和数据表示的发展。

2.2 可视分析学的跨学科属性

作为新兴的跨学科研究领域, 可视分析学聚焦了若干科技群体, 来自社会科学、计算机科学、信息可视化、认知和感知科学、交互设计和图形设计, 其中社会科学研究群体中有相当一部分学者来自图书情报领域。虽然这些学科关注不同方向的理论和实践, 但是都致力于利用信息技术解决实际问题, 面临相同的科学挑战, 建立紧密合作的益处包括两方面: 合作解决共同问题, 能以更有效的方式为每个学科带来更好的研究成果; 融合每个学科中的研究成果, 能显著改善许多重要数据分析应用的方案。可视分析学主要是以下4个方向技术的交叉:

(1) 分析推理技术, 让用户获得洞察力直接用于评价、计划和决策支持;

(2) 数据表示和转化技术, 将所有冲突的或动态的数据类型转化成支持可视化和分析的数据类型;

(3) 支持生产、展示和传播分析结果的技术, 让多种受众在合适的情境下沟通信息;

(4) 可视化表示和交互技术, 利用人类眼睛的“高宽带”, 让用户一次性查看、探索和理解大量信息。

这4大技术支撑了可视分析学研究, 如 图1所示:

图1 可视分析学跨学科属性

图1中还可以看到, 由上述4大技术支撑的可视分析学, 是科学可视化和信息可视化在数据管理、数据挖掘、人机交互和心理感知等领域的影响下形成的。科学可视化、信息可视化和可视分析学有着一些重叠的工具和技术, 目前这些领域之间没有形成一致的界限, 但总体来说, 这三个领域可以做如下区分[ 7]: 科学可视化研究具有自然地理结构的数据; 信息可视化处理诸如树或图之类的抽象数据; 可视分析学尤其关注意义构建和推理。具体而言, 传统可视化研究并非都是处理分析任务, 也并不总是使用高级的数据分析算法, 大多数信息可视化研究都关注产生视图的过程和针对给定数据类型创建有价值的交互技术, 然而很少考虑如何将用户对数据的交互转变成调整底层分析的过程, 而可视分析学正是利用用户兴趣的知识通过系统更新各种参数, 这就是可视分析学和传统信息可视化最大的不同: 可视分析学将信息可视化贯穿到整个意义构建循环过程中, 一直赋予数据分析最高优先权。可视分析学在信息可视化基础上更进一步, 将决策支持、可视化、人力因素和数据分析进行集成。

3 可视分析学的研究前沿

始于2006年的IEEE VAST(Visual Analytics Science and Technology)会议是国际范围内可视分析学者探讨交流研究进展的主要平台, 笔者从IEEE数字图书馆中获取2009-2013年VAST会议共5年的全部论文数据。值得注意的是, 鉴于VAST会议的高质量, 其全文也得到期刊《Visualization and Computer Graphics》的专辑刊载。VAST会议安排的主题一直保持相对稳定, 归纳起来分别是意义构建及合作、文本分析、高维数据可视分析、空间时间分析和应用实例, 其各自的含义如 表1所示。笔者以这5大主题为切入点, 提炼可视分析学近年来的最新进展。

表1 2009-2013年VAST会议主题分布
3.1 意义构建及合作

意义构建(Sensemaking)主要由两个部分组成: 搜寻(Foraging)和综合(Synthesis)[ 8]。搜寻是指用户过滤和收集有趣或相关信息集合的过程, 更多地是需要计算支持; 综合是指用户建立和验证搜寻到的信息如何相关的假设过程, 更多地运用了人类建立信息之间关联的直觉。在综合的过程中, 分析者需要将离散的信息片段拼接成一个整体, 由于信息的碎片化和内在矛盾, 甚至有信息主体蓄意混淆其信息活动, 使综合的过程变得更加复杂。通过便捷的、可用的和具有表现力的交互, 在数学模型、可视化和人类直觉上达成协调, 实现搜寻和综合的融合, 为用户提供计算支持, 正是可视分析学的优势和目标。意义构建方法分为两类: 自上而下方法, 从已知的表示方法开始, 探索由这些表示方法引导的数据; 自下而上方法, 先探索数据, 然后基于收集到的相关信息构建数据表示。这两种方法常常在意义构建过程中同时用到, 所以有学者提出混合模型来集成它们。同时, 在支持数据分析和意义构建的整个过程中, 不仅和数据可视化交互, 还要记录笔记和发现, 综合假设和证据, 查找和传播文档, 并且频繁地和其他分析者合作, 可视化表示在不同任务和细节的不同层次上为他们的合作提供参考, 研究表明可视化任务在合作条件下完成得更准确更迅速。因此, 支持合作机制以及数据分析过程的其他方面至关重要。意义构建及合作构成了可视分析学的核心研究主题之一, 主要从以下4个方面开展:

(1) 意义构建设计原则。人们对复杂意义构建问题的推理过程通常达成共识, 但对底层的认知过程以及这些认知过程如何影响对信息事实的操作和生产缺乏深刻的理解。尽管Klein等[ 9]提出数据框架模型(Data-Frame Model of Sensemaking, DFM), Pirolli等[ 8]提出智能分析模型(Model of Intelligence Analysis), 尝试阐释清楚这些认知过程, 但还不足以完全用于指导意义构建工具的设计, 去支持数据分析者从搜寻信息到建立并验证假设的整个意义构建过程。合理的意义构建工具能支持用户将最初的或试验性的猜测, 进一步发展为坚实的和有说服力的论断。Kodagoda等[ 10]借鉴意义构建和总体认知相关的早期理论和框架, 开发出INVISQUE(INteractive VIsual Search and QUery Environment)系统, 将其作为“理论透镜”来考虑开发系统设计的指导原则, 聚焦于用户创造的表示和其推理过程, 得到4个方面的设计原则:

①提供领域视图中进行、保留和结合多重搜索的能力, 提供粗略分类和筛选操作的工具, 如查询相关指标、分层展示和实体抽取;

②提供广泛系列的参数来分类和可视化, 允许用户扩展他们对数据中个人和文档的理解;

③允许用户保留他们对一个集合的过滤和视图操作, 并方便地重用到其他集合中;

④允许用户创建与多个集合相关参数的多重并行视图。

分布式认知(Distribute Cognition)和具象化(Embodiment)提供人们如何思考并与环境交互的强有力的模型, Andrews等[ 11]从分布式认知和具象化得到启发, 开发了AW(Analyst’s Workspace)系统, 充分利用大型高分辨率屏幕的空间可供性(Affordance)建立意义构建工作空间的分析环境, 通过对AW设计背后核心准则和概念的探讨, 强调可视分析工具的特有设计原则。

①在表达关系上的低交感花费能促进外化;

②空间环境的灵活让使用者专注于外在形式并探索规律;

③综合和搜寻采用相同的可视化作品能在两个过程中的运动更流畅;

④采用细节表示和可视化链接将分析者注意力引导到工作空间的关联中来, 能通过降低对记忆的依靠来减少认知偏差。

对可供性概念进一步发展, Crouser等[ 12]给出基于可供性的框架, 描述和理解人机合作系统, 首次提出用共同语言来比较意义构建系统, 并描述通过设计这种合作产生的收益。

(2) 意义构建设计方法。空间组织是意义构建中的主流方法, 人类认知系统非常擅长从空间关系中寻找模式、分类信息和简化内部计算,因为空间关系代表的外化信息减少了存储压力, 同时为文档添加了环境背景信息。用户可以在空间聚类中,探索信息之间的相似性和关联性,调整维度的权重或者数据集的特征去观察空间布局的变化。为了改进空间组织方法,Endert等[ 13]试图将语义交互用到空间组织中,能结合聚类模型的参数调整和用户对数据的分析操作(在空间中引导文档运动、高亮文本、搜索等),并开发了可视分析原型ForceSPIRE,证实语义交互可以捕捉用户的分析推理,通过关键词权重、辅助用户基于用户推理和直觉共同建立空间,支持意义构建的语义交互能力。Andrews等[ 14]比较了两种空间表现形式对利用空间组织外化(Externalizing)意义构建过程的影响,即用户可以直接交互的物理空间,例如由大型高分辨率屏幕提供的空间,以及应用虚拟导航技术构建的虚拟空间,例如用户通过缩放、过滤等获得的空间。在两种空间表现形式下显式地测试了空间意义构建技术的使用,结果表明由物理空间提供的更大的具象化改变了感知和使用空间的方式,使得意义构建(Sensemaking)更加外向化。

(3) 意义构建实际应用。可视分析系统被用于支持各种意义构建活动, 展示了意义构建活动十分重要的特征, 包括搜索、收集、组织相关信息, 连接概念、创建和修改表示, 追踪意义构建过程。其中有设计来支持一般类型数据的意义构成如文档和网站, Jigsaw[ 15]利用可视化工具识别关键信息实体和它们的关系来支持大型文本集的意义构建, CzSaw[ 16]支持文档集循环分析的可编辑和可回放的历史导航, Sandbox[ 17]和CiteSense[ 18]让用户可以在可视化空间中搜索、收集、组织和整理事实为文档构建意义; 也有设计支持特定类型数据的意义构建如社会网络数据, Gou等[ 19]将可视化意义构建拓展应用到社会网络分析中, 提出一种关于社会网络意义构建的框架, 该框架既考虑基于收集的信息构建对数据的理解, 也考虑基于先验知识来指导信息收集, 分析社会网络属性和强调意义构建过程外化对社会网络可视分析的重要性, 还实际开发了SocialNetSense系统, 支持基于交互可视化的社会网络意义构建活动, 帮助学者利用社会等级信息理解学术合作网络。

(4) 可视分析学中的合作。在合作进行可视分析时, 尤其在合作者相隔一定距离的情况下, 理解合作者的工作十分关键, 能避免重复劳动, 及时分享相关成果和相互利用已有成果。可视分析学的合作研究分为两个部分:

①分析者之间的合作。Hajizadeh等[ 20]在对表格式数据可视化分布式合作的情境下, 比较展示合作者动作的三种方法: 轻触(Brushing Actions)和链接, 即突显合作者所能看到的; 选择, 即仅展示一个选中的项目; 持续性选择(Persistent Selection), 即仅展示选中的项目但是让它们保持一段时间。发现持续性选择能促进对合作者行动的认知, 同时引发对独立工作的最小干扰。

②分析者与付费工作者之间的合作。探索和检验大型数据集必须考虑数据的不同层面, 并且进入意义构建的循环过程, 解释数据集中趋势和异常值并找到证据来支持这些解释, 是意义构建循环中的关键部分, 会给分析者带来相当大的工作量。Willett等[ 21]设计了一种系统, 该系统让分析者利用付费的一大群工作者去探索数据集, 并帮助分析者交互地查看和利用工作者的洞察力。

3.2 文本分析

文本信息包括日常的报纸、书籍、科学和政府出版物、博客和私人消息等, 已经成为世界上最庞大和最重要的信息源。实践中文本分析的复杂性也越来越高, 揭示文本数据中潜在的规律并引导用户决策是长期以来的热门研究方向。人们越来越依靠计算机去从巨大信息存储库中抽取和可视化有意义或有趣的主题和文献, 可视分析学因而在文本分析中发挥重要作用, 主要从以下三个方面来促进文本数据的深入分析:

(1) 改进主题模型, 以提高模型分析的交互性。主题模型是从语义上发现文本集中有价值主题的主流有效方法, 但是主题模型主要基于概率图, 存在需要多次运行和实证收敛一致性方面的缺陷。为此, Choo等[ 22]提出UTOPIAN模型, 允许用户和主题建模方法进行交互, 以用户驱动的方式操控结果。此外, 主题模型没有提供语义和解释, 人类必须介入去阐释结果, 为了便于主题结果的解释, 可视化文本分析研究者设计了算法和可视化表示, 让概率主题结果易读且具备探索性[ 23]。可视分析学和基于主题模型的文本分析的结合, 虽然为解析大型文本集提供机遇, 但可视化呈现大量主题时, 很难做到既不混乱又不模糊。为此, Dou等[ 24]开发出HT(HierarchicalTopic)可视化系统, HT系统将主题玫瑰树(Topic Rose Tree)算法和交互式界面融合在一起, 主题玫瑰树基于一系列主题构建主题等级, 交互式可视化界面展示主题内容和等级结构中主题的时间序列演化, 还提供了用户交互, 允许用户根据自身对主题空间的认知模型对主题等级做出修改, 能辅助专家用户理解大规模主题和发现主题组中的有趣模式。

(2) 开发新的算法, 以提高分析结果的清晰度。由于文本具有非结构化和高维的自然属性, 设计有效的可视化隐喻来代表大型文本集仍然是个挑战。传统基于距离的方法(如向量空间模型)在高维空间中会失效, Oesterling等[ 25]提出一种改进的两阶段方法框架, 利用拓扑方法研究并可视化目标文档结点形成的文档云, 能和基于密度的聚类一样揭示出相似的信息。用三维可视化反映拓扑信息, 辅以额外的输入信息, 就能可视化内在结构和数据集, 前者可以得到概要的结构洞见, 后者可根据需要赋予标签或提供细节, 从而为用户提供框架去获得文档集的二维或三维布局。基于N-Gram的方法已经成功应用到文本挖掘领域中的各种问题, CNG(Common N-Gram)分类器是基于特征N-Gram(长度为n的字符串)频次比较的文本分类算法, Jankowska等[ 26]开发的文本分析可视化系统, 采用CNG方法进行文本分类并利用通用N-Grams值的频次差异, 实现了在子单词层次可视化地比较文档, 既提供了对文档N-Gram特征或文档类的洞见, 又提供了CNG分类器工作的解释。

(3) 变换对文本集进行总结的角度, 以丰富文本分析内容。可视化群体中大量工作放在刻画主题的时间演化上, 很少从事件驱动的角度对文本集进行解读。Dou等[ 27]提出交互可视分析系统Leadline, 自动识别新闻和社会媒体数据中有意义的事件, 利用这种形式来表达大型文本集, 能提供文本集的精确总结, 并支持对这些事件的探索, 将主题模型、事件探测和已命名实体识别技术整合在一起自动抽取4个W方面的信息, 即谁(Who)、什么(What)、何时(When)、哪里(Where), 还允许用户交互地利用4个W检验有意义的事件理解事件的动态和起因。

3.3 高维数据可视分析

人们想探索和分析的数据集不仅规模变得更大, 而且结构更加丰富、语义更加复杂。在大数据时代, 人们面临多元关系的数据, 远不止三个固有维度。高维数据分析和可视化在许多应用和领域中都有涉及, 为这个目的而产生的新技术稳定增长。可视分析学主要从以下三个方面促进对高维数据的分析和探索:

(1) 构建降维新方法。高维数据通常先选取较小维数集合, 然后利用分析工具和可视化工具处理。这些较小的维数集合, 要么采用特征选取方法从原始变量中选取, 要么根据目标特征利用数学方法转换而来, 都是基于统计特性来定义投影关系。然而, 这些方法不考虑背景知识和用户既有数据。后期的改进方法, 允许用户利用既有知识组织数据, 却不帮助理解结果和数据之间的关联。Gleicher等[ 28]通过创建和用户特定注释相一致的投影方程, 来纳入用户知识和对他们有意义的投影方程功能集, 支持由用户知识和对数据的问题来引导的高维空间的探索和发现, 权衡了投影方程的多个方面, 包括简便性、表达力以及和既有知识的一致性和多样性。此外, 在利用参数投影算法将高维数据在二维平面上可视化时, 用户通常通过操纵数据点的布局来更好地反映他们的领域知识或探索其他可能结构, 但是由于对可视化背后的算法并不熟悉, 用户对参数的调整更多是猜测游戏, 而不是决策互动。Hu等[ 29]开发的V2PI(Visual to Parametric Interac-tion), 将用户互动翻译成算法输入, 与调整参数不同, 用户直接在屏幕上移动数据点会更新底层的概率模型, 还通过新算法和复杂的加权策略, 将没有被移动的点的重要性纳入到映射过程中。

(2) 识别属性间关系。识别和刻画多维数据属性之间的关系, 随着维数增多变得更加困难, 现有的高维数据分析可视化技术都关注维度间的二进制连接关系, 需要更加灵活的表示来促进不同维度间属性值共现中模式的获取和探索。近年虽然有研究通过在属性关系图上交叉过滤来探索高次连接关系, 但是操作起来必须十分谨慎。Shadoan等[ 30]描述一种灵活的交互查询语言, 让用户通过交互构建查询如可视化超图(Hypergraphs), 显式地构建涉及n进制连接维度关系之内或者之间的查询, 以更加灵活地探索n进制连接维度内和维度外关系, 将发展查询系统纳入可视分析工具, 既能扩展交叉过滤的表达能力, 又能由交叉过滤来补充。此外, 许多数据集存在多种异构层面, 会衍生出许多内在关系以及数据项之间显式的参考关系, 这些数据集规模大, 资源结构和语义复杂。Zhao等[ 31]关注支持包含两种关系类型的数据集, 即核心数据项显式的参考关系和不同数据子集或特定数据属性间的内在相关性, 开发了PivotSlice系统, 具备针对复杂数据灵活的多维查询机制, 渐进地过滤、转动和切片信息空间, 无疑在提供了有效的分层探索能力的同时, 进一步便利了可视化探索和感知过程。

(3) 生成高维数据集。设计高维数据分析的新算法和软件需要数据集具备特定特征以供测试, 但是真实数据集有限, 可用的数据集并不总是具备目标评价所需的特征。科学家需要能够编辑自有数据集的工具, 理想情况下, 这种工具能兼容到他们已有的用于探索、分析和推理数据的可视化界面中。Wang等[ 32]提出WYDIWYGS(What You Draw Is What You Get)范式并实际设计了SketchPad, 能制造并编辑高维数据集, 和高维数据可视化紧密集成, 允许用户在用于可视化的相同界面下产生高维数据, 提供了一种仿真和直接的数据生产活动, 还允许用户交互地从可能的人工产物(Artifact)中编辑和清除既存的高维数据。

3.4 空间时间分析

时间数据和空间数据是两种特定类型的数据, 可视分析学能为研究这两种属性提供新颖的视角和高效的处理方式。

(1) 空间数据可视分析。空间数据分析可用于各种领域, 如旅游、市政服务、安保力量分布、应急管理和对抗传染病的疾病传播, 但需要处理任意分布、噪音和大量隐藏在数据中的事实。空间数据的一个典型代表是地理交通数据, 决策制定者和社会学家需要这些数据去理解城市动态和评价政策, 许多城市已经开始提供广泛数据集, 关键是如何让这些数据产生意义, 可视分析学主要从两个角度考虑:

①建立数据驱动的城市生活, 基于事实制定决策和政策。例如, Ferreira等[ 33]针对出租车旅程数据, 构造一种允许用户可视化查询出租车旅程的模型, TaxiVis作为实现该模型的分析环境, 允许跨城市的移动性研究, 能表达广泛的空间–时间查询, 不仅查询可以复合, 还能运用不同的聚合和可视化, 允许用户探索和比较结果。Wang等[ 34]则基于GPS轨迹对城市交通拥堵进行了可视分析, 结合自动计算和人类知识, 将GPS轨迹匹配到路网中, 该系统在传播图和道路段层次上提供多种视角, 可视化地探索和分析大城市的交通整体状况。

②将计算地理和交互可视化结合, 提供研究空间数据的新视角。Packer等[ 35]通过改进引导用户搜寻有趣聚类组输入参数的启发式计算, 提出基于距离空间聚类的新方法, 提供了预置参数让入门使用者去探索和进行数据分析, 还能进一步探索聚类选项的可视化反馈, 处理数据中的噪音。Bernard等[ 36]和领域专家一起开发了MotionExplorer, 作为基于移动状态的交互聚合与可视化探索系统, 用于大型移动数据集合中的人类移动序列, 允许仅用少量鼠标点击就能在人类移动捕获数据中搜索, 这种特殊类型的多变量时间序列数据与很多研究领域相关, 例如医学、运动和动画。

(2) 时间数据可视分析。面向时间的数据在许多可视分析情境中都扮演着基本角色, 时间序列分析的模型选择对很多应用领域的专家来说都是挑战性的工作, 如流行病学、经济或环境科学, 需要人工判断和自动计算的紧密结合。Monroe等[ 37]在引入EventFlow可视化工具的基础上, 将整个电子医疗记录(Electronic Health Records, EHRs)时序事件记录数据集转化成聚合的展示形式, 允许研究者分析人口层次的模式和趋势。然而, 许多可视分析学软件将时间作为寻常的数字类型数据, 在解决时间领域复杂性上存在不足, 例如日历粒度和间隔。对此, Rind等[ 38]展示了TimeBench软件库, 能提供可视分析学中面向时间数据的基础数据结构和算法, 不需要可视分析学设计的开发者将时序基础在应用代码中重复实现。

3.5 应用实例

可视分析学除了在上述4大主题取得了突出进展和良好应用外, 还广泛应用到模型和决策支持、图像和视频数据处理以及社会媒体数据分析等领域。

(1) 模型和决策支持。回归模型在许多应用领域中扮演着重要角色, 典型的回归模型构建过程中输入变量的特征子集选取受到限制, 其他局限还存在于局部结构、转换以及变量间交互的识别。Muhlbacher等[ 39]综合了关系结构的可视化定量分析以及为任意数量特征或特征组进行排序所需相关性的定量化, 从而构建了解决这些局限的回归模型框架。Broeksema等[ 40]则进一步将可视分析学方案运用到解决运筹决策管理(Operational Decision Management, ODM)领域相关问题, 考虑将决策模型作为描述商业领域的本体, 而在这个本体基础上构建描述决策商业逻辑的生产规则, 展示了可视分析学的动机和附加价值。

(2) 图像和视频数据处理。图像和视频数据是继文本数据之后的又一大数据类型, 可视分析学在这两种数据分析上同样能发挥优势。Schmidt等[ 41]对两个或多个数据集进行比较, 介绍了可视化大型图像数据集中差异和相似性的新方法。Schultz等[ 42]提出简化频谱聚类的框架, 关注三维图像分析中的应用, 将频谱聚类中的抽象高维特征空间链接到三维数据空间, 提供迅速的反馈支持需要的决策。传统基于概要的图像或视频搜索系统依靠机器学习概念作为其核心技术, 然而在许多应用中, 机器学习本身就不切实际, 因为视频可能本身没有充分的语义标注, 或缺少合适的训练数据, 而用户的搜索需求可能因为不同任务而频繁改变。Legg等[ 43]开发了克服这些缺点的可视分析系统, 利用基于概要的界面允许用户以灵活的方式明确搜索需求, 而不用依靠语义标注, 利用可视化来促进不同阶段可视分析学的知识发现, 这包括可视化搜索空间以支持交互浏览, 可视化候选搜索结果迅速交互以支持在最小化观看视频的同时进行敏捷的学习, 以及可视化搜索结果的聚合信息。在处理视频数据方面, Meghdadi等[ 44]提出一种新的视频可视分析系统以交互探索监视视频数据, 抽取每个物体的移动路径, 提供空间和时间的过滤工具, 将移动物体的多部分可视化表示纳入sViSIT系统, 帮助鉴别出视频中最通用的任务。有趣的是, Kurzhals等[ 45]还将可视分析学用到分析眼睛运动数据。

(3) 社会媒体数据分析。Xu等[ 46]提出扩展主题竞争力模型,刻画社会媒体上各种意见领袖提出的多种主题对公众注意力的竞争力, 通过混合故事线类型可视化的主题河(ThemeRiver)实现的可视化设计,突显了信息扩散过程的主题和社会层面。微博的迅猛增长使分析人员需要新方法来监测其感兴趣的主题,现有典型的微博监测工具基于用户定义的关键词查询和元数据限制进行信息过滤, 这种方法在过滤精确性和对趋势及主题结构改变适应性上存在缺陷,Bosch等[ 47]提出ScatterBlogs2,允许分析者以一种交互和可视化的方式建立任务定制的消息过滤器,所创建的过滤方法经精心安排和调整,能进行微博的交互式、可视化的实时监测与分析。此外, 可视分析学还被用至社会网络分析[ 48]、文档重建系统[ 49]和人类地形分析[ 50]等领域。

3.6 小结

综上所述, 主要能得到以下4点启示:

(1) 可视分析学目前的研究现状, 可概括为围绕意义构建基础算法和设计原则, 重点突破文本分析、高维数据和空间时间数据, 探索全面应用;

(2) 可视分析学是高度面向应用的学科, 且应用面非常广泛, 表现在分析对象几乎囊括了所有主流类型数据, 覆盖了社会学、医学、经济学、人类学、信息科学、智能交通等众多主流领域;

(3) 可视分析学还处在发展期, 尽管可视分析系统不断得到开发和利用, 但是原型系统居多, 且设计原则没有得到统一, 系统评价研究较为缺失;

(4) 可视分析学的研究热情很高, 其研究思想已渗透到不同学科背景的分析者, 其热衷于使用可视分析工具和方法, 为解决本领域实际问题开辟了新的有效方式, 代表了未来研究的一种趋势。

4 可视分析学与图书情报学发展

可视分析学也越来越受到国内外图书情报学者的关注, 国内李广建等[ 51]将可视分析学列为大数据时代情报学三大关键技术之一, 认为可视分析较好地解决了情报分析系统内部分析机制不透明的问题, 降低了对使用人员的专业化程度要求和分析难度。姜世华[ 52]认为将可视分析学应用到学科情报研究中, 能充分发挥其在促进知识传播、共享与利用上的优点, 进而提高学科情报研究的工作效率、改善工作模式。

在国外, 可视分析学在科学计量学方面的应用最为成熟, Chen等[ 53]将可视分析方法用于研究科学发现和知识扩散, 让分析者直观地识别被引文献的共引聚类, 综合这些被引聚类的主题背景, 追踪研究焦点如何随时间发展, 以拓展现有共引网络分析。此外, 他们还对撤稿这一特定现象, 进行了主题流可视分析[ 54]。此外, 可视分析学也被用于分析信息网络, Çöltekin等[ 55]开发了可视分析工具SSNetViz++, 以支持对维基信息网络的可视化和探索, 观察网络演化并找出其演化模式, 获得关于网络更高序的知识, 并进行时间序列分析探测事件和总结趋势。馆藏资源的可视分析是又一大应用方向[ 56], 例如Wong等[ 57]开发的INVISQUE系统, 利用索引卡的隐喻来展示图书馆内容, 用可视化集成如引文和出版日期等属性的方式组织, 使得可以十分便捷地找出热点论文和高被引论文。

可视分析学在图书情报学领域有巨大的应用前景, 就像信息可视化已经在馆藏资源可视化、数据分析等方向显示出威力, 可视分析学在信息服务尤其是智能服务上能提供方法论上的支持。就可视分析学在图书情报领域的应用前景以及图情领域对可视分析学研究和应用的现状来看, 它必然会引起图情领域学者更广泛和更高度的重视[ 58]

5 结语

可视分析学是信息可视化的最新发展, 笔者比较分析了可视分析学的特点, 通过调研最近5年国际VAST会议论文, 从意义构建及合作、文本分析、高维数据可视分析、空间时间分析和应用实例5个方面, 对可视分析学的最新进展作了梳理和总结, 发现可视分析学的研究是广泛而深入的。可视分析学在科学计量学、信息网络分析和馆藏资源可视化等图书情报领域已经取得了成功应用, 并逐步被应用到图书情报智能服务中。

尽管可视分析学是个较新的概念, 但是其根植于信息可视化、图形分析等成熟的学科, 能博采众长来达到交互可视分析推理的目标, 已经在诸多领域包括图书情报领域取得了实际应用。可视分析学提供的不仅是一种分析技术, 更是一种分析思维, 情报服务是情报学的核心职能, 而情报分析所涉及的数据类型和规模已达到前所未有的高度, 可视分析学为数据到情报的转变架构了一条通道, 但是如何掌握这条通道、如何利用好这条通道, 还需要图书情报学者进一步的研究。

参考文献
[1] Tukey J W. Exploratory Data Analysis [M]. Reading MA, US: Addison-Wesley, 1977. [本文引用:1]
[2] Wong P C, Thomas J. Visual Analytics[J]. IEEE Computer Graphics and Applications, 2004, 24(5): 20-21. [本文引用:1] [JCR: 1.228]
[3] Thomas J J, Cook K A. Illuminating the Path: The Research and Development Agenda for Visual Analytics [M]. IEEE Computer Society Press, 2005. [本文引用:1]
[4] Keim D A, Kohlhammer J, Ellis G, et al. Mastering the Information Age: Solving Problems with Visual Analytics [M]. Eurographics Association, 2010. [本文引用:2]
[5] May R, Hanrahan P, Keim D A, et al. The State of Visual Analytics: Views on What Visual Analytics is and Where It is Going [C]. In: Proceedings of 2010 IEEE Symposium on Visual Analytics Science and Technology (VAST), Salt Lake City, UT, USA. IEEE, 2010: 257-259. [本文引用:1]
[6] Keim D A, Mansmann F, Thomas J. Visual Analytics: How Much Visualization and How Much Analytics?[J]. SIGKDD Explorations, 2009, 11(2): 5-8. [本文引用:1]
[7] Keim D A, Mansmann F, Oelke D, et al. Visual Analytics: Combining Automated Discovery with Interactive Visualizations [C]. In: Proceedings of the 11th International Conference on Discovery Science, Budapest, Hungary. Springer Berlin Heidelberg, 2008: 2-14. [本文引用:1]
[8] Pirolli P, Card S. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis [C]. In: Proceedings of the International Conference on Intelligence Analysis. 2005: 2-4. [本文引用:2]
[9] Klein G, Phillips J K, Rall E L, et al. A Data-Frame Theory of Sensemaking [C]. In: Proceedings of the 6th International Conference on Naturalistic Decision Making. Mahwah, Nj: Lawrence Erlbaum Associates, 2007: 15-17. [本文引用:1]
[10] Kodagoda N, Attfield S, Wong B L, et al. Using Interactive Visual Reasoning to Support Sense-making: Implications for Design[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2217-2226. [本文引用:1] [JCR: 1.898]
[11] Andrews C, North C. Analyst’s Workspace: An Embodied Sensemaking Environment for Large, High-resolution Displays [C]. In: Proceedings of 2012 IEEE Conference on Visual Analytics Science and Technology (VAST), Seattle, WA, US. IEEE, 2012: 123-131. [本文引用:1]
[12] Crouser R J, Chang R. An Affordance-Based Framework for Human Computation and Human-Computer Collaboration[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2859-2868. [本文引用:1] [JCR: 1.898]
[13] Endert A, Fiaux P, North C. Semantic Interaction for Sensemaking: Inferring Analytical Reasoning for Model Steering[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2879-2888. [本文引用:1] [JCR: 1.898]
[14] Andrews C, North C. The Impact of Physical Navigation on Spatial Organization for Sensemaking[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2207-2216. [本文引用:1] [JCR: 1.898]
[15] Stasko J, Görg C, Liu Z. Jigsaw: Supporting Investigative Analysis Through Interactive Visualization[J]. Information Visualization, 2008, 7(2): 118-132. [本文引用:1] [JCR: 1.0]
[16] Kadivar N, Chen V, Dunsmuir D, et al. Capturing and Supporting the Analysis Process [C]. In: Proceedings of IEEE Symposium on Visual Analytics Science and Technology (VAST’09), Atlantic City, NJ, US. IEEE, 2009: 131-138. [本文引用:1]
[17] Wright W, Schroh D, Proulx P, et al. The Sand box for Analysis: Concepts and Methods [C]. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI’06). New York: ACM, 2006: 801-810. [本文引用:1]
[18] Zhang X, Qu Y, Giles C L, et al. CiteSense: Supporting Sensemaking of Research Literature[C]. In: Proceedings of the 26th Annual SIGCHI Conference on Human Factors in Computing Systems (CHI’08). New York: ACM, 2008: 677-680. [本文引用:1]
[19] Gou L, Zhang X, Luo A, et al. SocialNetSense: Supporting Sensemaking of Social and Structural Features in Networks with Interactive Visualization [C]. In: Proceedings of 2012 IEEE Conference on Visual Analytics Science and Technology (VAST), Seattle, WA, US. IEEE, 2012: 133-142. [本文引用:1]
[20] Hajizadeh A H, Tory M, Leung R. Supporting Awareness Through Collaborative Brushing and Linking of Tabular Data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2189-2197. [本文引用:1] [JCR: 1.898]
[21] Willett W, Ginosar S, Steinitz A, et al. Identifying Redundancy and Exposing Provenance in Crowdsourced Data Analysis[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2198-2206. [本文引用:1] [JCR: 1.898]
[22] Choo J, Lee C, Reddy C K, et al. Utopian: User-driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 1992-2001. [本文引用:1] [JCR: 1.898]
[23] Ramage D, Dumais S, Liebling D J. Characterizing Microblogs with Topic Models[C]. In: Proceedings of the 4th International Conference on Weblogs and Social Media. The AAAI Press, 2010. [本文引用:1]
[24] Dou W, Yu L, Wang X, et al. Hierarchicaltopics: Visually Exploring Large Text Collections Using Topic Hierarchies[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2002-2011. [本文引用:1] [JCR: 1.898]
[25] Oesterling P, Scheuermann G, Teresniak S, et al. Two-stage Framework for a Topology-based Projection and Visualization of Classified Document Collections [C]. In: Proceedings of 2010 IEEE Symposium on Visual Analytics Science and Technology (VAST), Salt Lake City, UT, US. IEEE, 2010: 91-98. [本文引用:1]
[26] Jankowska M, Keselj V, Milios E. Relative N-gram Signatures: Document Visualization at the Level of Character N-grams [C]. In: Proceedings of the 2012 IEEE Conference on Visual Analytics Science and Technology (VAST), Seattle, WA, US. IEEE, 2012: 103-112. [本文引用:1]
[27] Dou W, Wang X, Skau D, et al. Leadline: Interactive Visual Analysis of Text Data Through Event Identification and Exploration [C]. In: Proceedings of the 2012 IEEE Conference on Visual Analytics Science and Technology (VAST), Seattle, WA, US. IEEE, 2012: 93-102. [本文引用:1]
[28] Gleicher M. Explainers: Expert Explorations with Crafted Projections[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2042-2051. [本文引用:1] [JCR: 1.898]
[29] Hu X, Bradel L, Maiti D, et al. Semantics of Directly Manipulating Spatializations[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2052-2059. [本文引用:1] [JCR: 1.898]
[30] Shadoan R, Weaver C. Visual Analysis of Higher-order Conjunctive Relationships in Multidimensional Data Using a Hypergraph Query System[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2070-2079. [本文引用:1] [JCR: 1.898]
[31] Zhao J, Collins C, Chevalier F, et al. Interactive Exploration of Implicit and Explicit Relations in Faceted Datasets[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2080-2089. [本文引用:1] [JCR: 1.898]
[32] Wang B, Ruchikachorn P, Mueller K. Sketchpad N-D: WYDIWYG Sculpting and Editing in High-dimensional Space[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2060-2069. [本文引用:1] [JCR: 1.898]
[33] Ferreira N, Poco J, Vo H T, et al. Visual Exploration of Big Spatio-Temporal Urban Data: A Study of New York City Taxi Trips[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2149-2158. [本文引用:1] [JCR: 1.898]
[34] Wang Z, Lu M, Yuan X, et al. Visual Traffic Jam Analysis Based on Trajectory Data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159-2168. [本文引用:1] [JCR: 1.898]
[35] Packer E, Bak P, Nikkila M, et al. Visual Analytics for Spatial Clustering: Using a Heuristic Approach for Guided Exploration[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2179-2188. [本文引用:1] [JCR: 1.898]
[36] Bernard J, Wilhelm N, Kruger B, et al. Motionexplorer: Exploratory Search in Human Motion Capture Data Based on Hierarchical Aggregation[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2257-2266. [本文引用:1] [JCR: 1.898]
[37] Monroe M, Lan R, Lee H, et al. Temporal Event Sequence Simplification[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2227-2236. [本文引用:1] [JCR: 1.898]
[38] Rind A, Lammarsch T, Aigner W, et al. TimeBench: A Data Model and Software Library for Visual Analytics of Time-oriented Data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2247-2256. [本文引用:1] [JCR: 1.898]
[39] Muhlbacher T, Piringer H. A Partition-Based Framework for Building and Validating Regression Models[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 1962-1971. [本文引用:1] [JCR: 1.898]
[40] Broeksema B, Baudel T, Telea A G, et al. Decision Exploration Lab: A Visual Analytics Solution for Decision Management[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 1972-1981. [本文引用:1] [JCR: 1.898]
[41] Schmidt J, Groller M E, Bruckner S. VAICo: Visual Analysis for Image Comparison[J]. IEEE Transactions on Visualiza-tion and Computer Graphics, 2013, 19(12): 2090-2099. [本文引用:1]
[42] Schultz T, Kindlmann G L. Open-Box Spectral Clustering: Applications to Medical Image Analysis[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2100-2108. [本文引用:1] [JCR: 1.898]
[43] Legg P A, Chung D H S, Parry M L, et al. Transformation of an Uncertain Video Search Pipeline to a Sketch-based Visual Analytics Loop[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2109-2118. [本文引用:1] [JCR: 1.898]
[44] Meghdadi A H, Irani P. Interactive Exploration of Surveillance Video Through Action Shot Summarization and Trajectory Visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2119-2128. [本文引用:1] [JCR: 1.898]
[45] Kurzhals K, Weiskopf D. Space-Time Visual Analytics of Eye-Tracking Data for Dynamic Stimuli[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2129-2138. [本文引用:1] [JCR: 1.898]
[46] Xu P, Wu Y, Wei E, et al. Visual Analysis of Topic Competition on Social Media[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2012-2021. [本文引用:1] [JCR: 1.898]
[47] Bosch H, Thom D, Heimerl F, et al. ScatterBlogs2: Real-Time Monitoring of Microblog Messages Through User-guided Filtering[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2022-2031. [本文引用:1] [JCR: 1.898]
[48] Ghani S, Kwon B C, Lee S, et al. Visual Analytics for Multimodal Social Network Analysis: A Design Study with Social Scientists[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2032-2041. [本文引用:1] [JCR: 1.898]
[49] Butler P, Chakraborty P, Ramakrishan N. The Deshredder: A Visual Analytic Approach to Reconstructing Shredded Documents [C]. In: Proceedings of the 2012 IEEE Conference on Visual Analytics Science and Technology (VAST), Seattle, WA, US. IEEE, 2012: 113-122. [本文引用:1]
[50] Walker R, Slingsby A, Dykes J, et al. An Extensible Framework for Provenance in Human Terrain Visual Analytics[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2139-2148. [本文引用:1] [JCR: 1.898]
[51] 李广建, 杨林. 大数据视角下的情报研究与情报研究技术[J]. 图书与情报, 2012(6): 1-8.
Li Guangjian, Yang Lin. Intelligence Analysis and Intelligence Technology in View of Big Data[J]. Library and Information, 2012(6): 1-8. [本文引用:1] [CJCR: 1.3855]
[52] 姜世华. 知识可视化和可视分析在学科情报研究中的应用[J]. 图书馆学研究, 2009(3): 90-92.
Jiang Shihua. Knowledge Visualization and Visual Analysis in Subject Information Research[J]. Researches in Library Science, 2009(3): 90-92.
[本文引用:1] [CJCR: 1.6079]
[53] Chen C, Zhang J, Vogeley M S. Making Sense of the Evolution of a Scientific Domain: A Visual Analytic Study of the Sloan Digital Sky Survey Research[J]. Scientometrics, 2010, 83(3): 669-688. [本文引用:1] [JCR: 2.133]
[54] Chen C, Hu Z, Milbank J, et al. A Visual Analytic Study of Retracted Articles in Scientific Literature[J]. Journal of the American Society for Information Science and Technology, 2013, 64(2): 234-253. [本文引用:1] [JCR: 2.005]
[55] Çöltekin A, Fabrikant S I, Lacayo M. Exploring the Efficiency of Users’ Visual Analytics Strategies Based on Sequence Analysis of Eye Movement Recordings[J]. International Journal of Geographical Information Science, 2010, 24(10): 1559-1575. [本文引用:1] [JCR: 1.613]
[56] 邱均平, 余厚强, 吕红, . 国外馆藏资源可视化研究综述[J]. 情报资料工作, 2014, 35(1): 12-19.
Qiu Junping, Yu Houqiang, Lv Hong, et al. Review of the Visualization Researches on Library - Collected Resources Abroad[J]. Information and Documentation Services, 2014, 35(1): 12-19. [本文引用:1] [CJCR: 1.169]
[57] Wong B L, Choudhury S T, Rooney C, et al. INVISQUE: Technology and Methodologies for Interactive Information Visualization and Analytics in Large Library Collections [A]. // Research and Advanced Technology for Digital Libraries[M]. Springer Berlin Heidelberg, 2011: 227-235. [本文引用:1]
[58] 洪文学, 王金甲. 可视化和可视分析学[J]. 燕山大学学报, 2010, 34(2): 95-99, 105.
Hong Wenxue, Wang Jinjia. Survey on Visualization and Visual Analytics[J]. Journal of Yanshan University, 2010, 34(2): 95-99, 105. [本文引用:1] [CJCR: 0.3302]