介绍ICADL2011会议的总体情况,从以下方面对会议的主要研究进展,进行综合分析和论述,包括数字资源的长期保存和管理、数据挖掘及应用、移动服务、元数据和编目、并行计算/云计算、社会网络和个性化服务、信息检索。这可以代表亚太地区数字图书馆研究及应用发展的主流和趋势。
This paper reviews the 13th International Conference of Asia-Pacific Digital Libraries(ICADL 2011), introduces the main contents and trends of the following research areas, including digital preservation and management, data mining and application, mobile services, metadata and catalogue, parallel computing /cloud computing, social network and personalized service, and information retrieval.These contents can represent the main trends of Asia-Pacific digital library research and application.
ICADL 2011会议于2011年10月24日-27日在北京清华大学举行,会议由清华大学主办,北京大学和中国国家图书馆协办。本次会议的主题是“数字图书馆——文化传承,知识传播,未来创造(Digital Libraries——for Culture Heritage, Knowledge Dissemination, and Future Creation)”,所关注的领域包括数字档案和数字长期保存、信息挖掘和抽取、元数据和编目、分布式仓储和云计算、社交网络和个性化服务、移动服务、电子出版、多媒体数字图书馆、信息检索、面向数字图书馆的工具和系统等。24日举办了会前会,包括Tutorial和Workshop,25日-27日是正式会议时间,包括主题报告和研究论文报告。参会者有200余人,收到了来自5个大洲的27个国家的研究者提交的论文。
从1998年开始,一年一度的ICADL成为了亚太地区数字图书馆研究的重要学术会议,为有关的研究者、教育者、实践者提供了一个分享经验和知识的论坛。本文通过分析ICADL2011会议的主要内容和特点,帮助了解当前
亚太地区数字图书馆研究发展的热点和趋势。
(1)学术成果的保存和管理
数字资源的长期保存是近年来数字图书馆界研究的一个重要方向,关于长期保存的技术和理论已经有许多进展,但新的信息传播方式对数字资源的保存和管理又提出了新的挑战。来自美国加州大学洛杉矶分校的Borgman[ 1]教授做了题为“淹没在数据的海洋中:亚洲数字图书馆的挑战”的主题报告,该报告指出当前的学术交流不仅仅包括论文和出版物,研究数据已经成为需要捕获、记录和共享的有价值的对象。在美国,资助机构要求所有新的项目申请都要具有“数据管理计划”,图书馆、大学和研究机构要评估如何管理那些数据以确保未来的使用,这些学术交流的变化情况对亚洲数字图书馆也产生了影响。当前的研究成果通过许多正式和非正式的方式进行传播,访问方式也在快速变化,这些变化主要体现在:从一个封闭的学术世界到开放的Web网络的转变、网络化信息的内容和上下文的变化、信息服务的焦点从读者到面向作者的转变以及出版物和数据的差异等。在这种背景下,要使未来学者们能够使用昨天、今天和明天的学术内容,数字图书馆界必须重新设计信息检索的方式,重新思考贯穿信息生命周期的合作者的关系,共同承担构建新信息服务基础设施的责任,致力于解决政策和激励机制等问题[ 1]。
与Borgman教授的报告中提出的问题呼应,为了研究开放获取知识库的激励政策,新西兰Massey大学的Stanton等[ 2]进行了博士生对于机构库中开放获取学位论文的感性认识的一个探索性研究。对学生关于开放获取和机构库概念的认识程度、出版行为以及OA出版的预期效益及风险进行了探讨。这项研究还调查了学生遵守强制提交政策的意愿,研究样品取自Massey大学。作者讨论并提出一些潜在的战略,用来提高大家对于开放获取机构库优势的认识,以鼓励它被接受和采纳。
(2)保存和展示技术的研究
长期保存中自动和半自动化的保存技术的研究越来越普遍。奥地利Vienna University of Technology对数字原生照片进行了自动保存的研究,研究了原生数字照片保存的质量保证过程,并对原始图像格式转换成标准的格式(如Adobe Digital Negative)进行了验证。通过使用工具并结合图像相似性算法和专用插件,扩展了现有的测量框架,结合元数据提取、图像呈现和比较、感知层次的质量保证,评估了对质量保证的核心部分实施自动化的可行性,为降低保存过程中的成本提供了依据[ 3]。与此不同,德国Rostock大学的研究则是对一个海量人种学文档馆藏的半自动数字化技术。在文化遗产保存领域,人们不得不处理以前收集在非数字媒体上面的信息,该项目保存的是存储在地下封闭仓库中的金属箱里的电影胶片,介绍了该项目中的特殊数字化工作流程和获得的经验[ 4]。3D技术在数字档案的还原、展示中应用越来越普遍,为了给3D文化遗产对象提供一种基于Web的语义标记和注释服务,既支持交互方式定义的、复杂的3D片断所产生标签/注释支持互操作性,又能够快速高效地捕获、检索和呈现关于复杂3D片段的注释,澳大利亚Queensland大学对3D博物馆中对象的高速采集、检索和呈现技术进行了研究,建立了一个三维语义标注(3DSA)系统,使用户能够附加语义标记/注释到三维数字对象的点、表面区域和立体片断, 3DSA系统基于开放注解协作(OAC)模型,并使用X3D的片段标识符对该模型进行了扩展,这种方法显著提高了立体片断注解的捕获、检索、下载和呈现速度[ 5]。
(3)文化遗产的保存及应用服务
来自不同国家和地区对文化遗产的数字化成果都开始得到一些实际的应用,并产生一些增值服务。中国台湾中台科技大学对中国传统的竹编织文物的数字化和增值应用进行了研究,搜集整理了1 200个竹编文物,对其中150个带有20个编织模式的文物进行了数字化并分别存储为图像和视频格式。这些数字化的内容在社区学院被用作电子学习材料的一部分,对学生学习竹编工艺和插花技能起到了辅助作用,竹编文物结合插花艺术来装饰餐厅也提升了餐厅的服务质量[ 6]。类似地,英国University of British Columbia(UBC)对加拿大的中国文化遗产保存进行了研究,介绍了一个基于社区的研究项目,即“加拿大的中国故事”。该项目汇集了广泛的UBC图书馆联盟和校外合作伙伴的专业知识和资源,包括UBC图书馆古籍善本及特藏档案材料的数字化、UBC数字计划的数字存储基础设施、社区外部和Irving K. Barber学习中心的数字技术、中国语言的在线资源和亚洲图书馆的社区历史保存的专业知识[ 7]。
(1)知识服务的发展
当前是一个全球范围的、跨学科的、多语种复杂性海量数据并存的时代,有大量的数字数据可以用于科学发现,在此背景下,带来了元知识服务的巨大机遇。来自中国科学院国家科学图书馆的张晓林[ 8]教授做了题为“发展元知识服务:数字图书馆的下一代范例”的主题报告。该报告指出现在或者不久的将来已经有几种元知识服务的方法,即研究领域和新兴主题的情报监控和可视化可以帮助研究人员跟踪最新发展;文献与专利分析可以揭示复杂的研究模式及其竞争者或合作对象;产量、影响因子和投资组合分析可以支持对研究组织、团体和个人的官方评价;路径探索和路径映射被交互使用以构建和测试研究计划;大量数据的元阅读给学生提供了构建知识并确定重点的有效途径。张晓林教授还给大家介绍了中国科学院国家科学图书馆近期开展的一些以元知识服务为中心的服务结构,一方面采用研发跟踪、趋势检测、技术分析、竞争/合作分析、研发映射等相关的复杂计算工具来武装其分析师团队;另一方面重新组织其数字信息服务到一种链接的、基于开放数据和本体系统驱动的发现平台[ 8]。
除了中国科学院国家科学图书馆在知识服务方面的探索工作之外,国内外也有一些相关的研究和实践。为了给研究人员提供更直观丰富的文献检索服务,北京大学对基于本体的知识可视化进行了研究,并利用一些本体可视化工具,在面向读者的文献检索系统中嵌入了基于本体的知识检索模型,给读者提供了可视化的知识服务[ 9]。
为了帮助数字图书馆研究人员了解近年来的新兴主题发展、跟踪研究热点和发展趋势,澳大利亚理工大学对1990年至2010年的数字图书馆研究主题进行了研究,并总结出一个关于数字图书馆研究的核心主题和副主题(1990年至2010年)的知识地图,创建了数字图书馆研究的一个可视化知识地图,可以作为数字图书馆研究人员、教育工作者、学生和从业人员的一个不可缺少的知识平台[ 10]。
(2)社会媒体挖掘及应用
社会媒体的挖掘和应用已经成为当前数据挖掘的一个热点,相关的研究成果已经在政治、商业、文化等领域得到了应用。
来自美国亚利桑那大学的Chen[ 11]教授做了题为“构建一个社会媒体数字图书馆:收集、管理、分析”的主题报告,介绍了亚利桑那大学人工智能实验室近期关于Dark Web、地理政治学的网络、商务分析的研究项目以及取得的成果。这些项目主要通过一种计算的、数据为中心的方法来研究网络世界和现实世界中关键的社会和商业的现象,搜集并管理由各种政治和商业团体所产生的重要的社会媒体内容,包括网站、论坛、聊天室、博客、社交网站、视频、虚拟世界等。目前已经开发出一个社会媒体数字图书馆和门户系统,用来管理和访问这些关键的多语种和多媒体内容,还利用先进的多语言数据挖掘、文本挖掘和Web挖掘技术来进行链接分析、内容分析、网络指标(尖端技术)分析、情感分析、作者分析和视频分析,这些技术已经在地理政治领域和商业情报中得到应用[ 11]。
新加坡南洋理工大学对文化媒体领域进行了一些挖掘和应用,开发了一个关于社会化媒体内容的数字图书馆原型,从博客、讨论板、用户和评论家的评论网站、Twitters收割不同流派的电影评论,在系统中执行细粒度的分析,以确定评论人对电影的各个方面的情感取向和情绪强度,开发了各种可视化界面组件来呈现对于每部电影的多个方面的公众舆论的一个概括性视图,并进行了可用性评估来观察其有效性[ 12]。
移动技术在数字图书馆的应用是近年来的一个发展热点,许多研究机构和企业都开始关注移动服务的研究和应用开发。来自Google中国研究中心的Chang[ 13]博士做了题为“移动信息管理和检索”的主题报告。当前,“智能”移动设备如无线电话和平板电脑的数量一直在快速增加,这些移动设备都配备各种传感器,可以用来捕捉图像和声音、检测运动模式并预测位置等。Chang博士介绍了有关配置、标定、计算并融合的技术,来提高传感器的性能和节省功耗,还介绍了可以受益于增强的传感器技术的新的信息管理和检索应用程序。从2010年以来,Google已经资助美国和亚洲的部分大学开展了一些工作,如传感器信号融合、基于位置的数据服务和对等协议、保留隐私的数据挖掘、由惯性导航系统辅助的应用等,来推进移动信息管理和检索[ 13]。
新加坡南洋理工大学的Goh等[ 14, 15]对移动服务相关的技术做了一些深入的调查研究。移动设备的界面展示技术是影响移动服务质量的重要基础,Goh等对移动设备上的基于位置信息的展示界面做了比较评估研究。基于位置的信息现在可以很容易地在移动设备上访问,通常以条目的列表、地图以及增强现实(AR)的形式呈现,每一种方法(列表、地图、AR)都有其长处和短处。为了调查三种界面在搜索和浏览时的性能,发给参与调查的用户一个预装了特定界面的Android智能手机,并请他们执行一系列浏览和搜索任务。结果表明,对于搜索任务三个界面性能类似,但对于浏览任务地图界面性能最差。在可用性方面,用户认为列表在呈现基于位置的信息方面优于其他界面[ 14]。最近,加入游戏功能的移动内容共享应用吸引了大众的兴趣,Goh等调查了用户使用这些游戏的动机,通过基于内容的接收人、创建的内容类型和内容创建的目的这些记录使用标记来分析动机。结果表明,创建内容的动机包括知识创造、自我表达、社会关系的创建和维护、自我展示、竞争和成就感等,游戏和手机内容共享相互促进了使用[ 15]。这些研究成果对开发移动应用提供了有益的参考。
长期保存元数据的研究与应用是近年来元数据研究的热点。日本Tsukuba大学和中国清华大学都对基于METS和PREMIS的长期保存元数据框架进行了研究并应用到相应的系统中,使用METS作为一种传输和封装格式,使用来自PREMIS数据字典和都柏林核心元数据元素集的元数据对它进行了扩展。Tsukuba大学侧重于在云环境下对长期保存元数据框架的应用,提出了一种针对云档案的元数据应用纲要,通过该应用纲要,使用预定义的标准创建了一个METS信息包的例子,结果表明应用纲要符合功能要求,与不允许预先登记的系统相比,简化了业务系统的元数据提供,该论文获得了本次会议的最佳论文奖[ 16]。清华大学侧重于研究基于本地的电子资源长期保存系统中的元数据应用框架,设计了保存系统框架及元数据应用框架,来辅助电子资源的长期保存[ 17]。
元数据的质量对数据揭示的准确性影响很大,中国台湾国立台湾师范大学对元数据质量保证指标和它们对数字图书馆的影响进行了研究。该研究以Bruce和Hillmann提出的衡量指标为基础并在是否符合预期、出处、准确性、完整性和可获取性等方面做了进一步发展,在实践中设计了一种自动与人工相结合的方法来评估元数据的质量,目标对象选自台湾电子学习和数字存档计划的两个单独项目,它们作为使用案例验证了所提议指标的可行性。通过实践,从项目管理、元数据管理、隐藏的质量问题和可获取性等角度讨论了所提议元数据质量指标对数字图书馆的影响[ 18]。
FRBR模型也是元数据和编目技术的关注热点,但是在当前书目标准中缺乏对FRBR模型的支持,这已经成为该模型在图书馆数据库中得到实施和应用的一个主要瓶颈。挪威科技大学研究了如何在MARC中编码FRBR结构化的书目信息,提出了一种使用MARC编码FRBR结构的解决方案,并显示在当前的格式中甚至编码更加复杂的FRBR结构,在保持与现有标准兼容的基础上,这种方案为图书馆系统提出一种可行的迁移路径[ 19]。
云计算使人们能够利用大型计算机基础设施根据需求来创建应用程序。数据密集型计算框架利用这些技术在虚拟计算机集群上生成和处理大型数据集。MapReduce在这方面提供了一个高度可扩展的编程模型,已经证明并被广泛应用于处理结构化数据。奥地利技术研究所对基于MapReduce的集群上处理大型和非一致媒体对象的方法进行了研究,提出并实现了利用这种模型处理音视频内容的方法,使用多个并行的计算机节点来分析和修改大型音像文件,从而大幅降低处理时间[ 20]。
Greenstone在数字图书馆中已经得到了广泛应用,但是如何应用它构建超大规模数字图书馆还是新的课题,新西兰Waikato大学对利用Greenstone建立超大规模数字图书馆系统进行了研究和探索[ 21]。Thompson等[ 21]介绍了在支持馆藏建设阶段对Greenstone软件加入并行处理的发展过程,开展了一系列的实验,先建立基本的加速因子,然后对并行化过程进行解构以了解应用程序的执行配置文件,确定和解决了应用中的一些瓶颈,从而进一步提高性能。通过Greenstone的改写证明其在系统的构建阶段适于进行并行化处理,并建议并行化处理应作为现有数字图书馆体系结构发展中探索的一个新途径[ 21]。
社会网络的发展对图书馆的服务也提出了新的挑战,如何利用社会网络中的信息来发掘群体/个体用户的兴趣,提供更个性化和周到的服务,是当前数字图书馆研究的热点。结合社会网络发掘用户兴趣是当前个性化服务研究的热点,本次会议收到的论文也体现了这个特点。中国杭州师范大学对数字图书馆中一种基于社会性标签的协作过滤算法进行了研究,提出了一种新的基于社会性标签的协作过滤推荐算法,尝试解决语义鸿沟和传统的协作过滤的冷启动问题。首先在数字图书馆的社会网络中检测有相似习惯的社区,然后从“用户-书-标签”的相似性模型得到候选标记,最后根据朴素贝叶斯分类的建议,具有最高后向路径标签的图书得到推荐。实验结果表明,该算法改进了协作过滤算法的性能,并已用作中国的CADAL项目的一个核心推荐算法[ 22]。中国北京大学对异构网络中多个实体的联合排名方法进行了研究,提出了一个新颖的方法用来建模论文、作者和出版地点(考虑到出版时间)之间的相互增强关系。采用带重启框架的随机游走算法进一步整合书签信息,将用户的专业知识和论文质量之间的关系建模为复合引文网络。通过在ACM数据集的实验结果表明,所提出的方法优于传统的方法,考虑时间因素后,最新出版物的排名结果可以大大改进,对用户生成的内容的集成进一步改进了排名结果[ 23]。社会网络中信息传播的快速性是传统数字图书馆系统无法匹敌的,如何利用社会网络的信息传播来开展广泛的用户服务也是未来图书馆服务发展的新途径。为此,新加坡管理大学对Twitter内容的扩散性建模进行了研究,研究了在新加坡2011年的换届选举(GE2011)中的社会政治性短信息内容的扩散性,收集了从2011年4月1日到5月12日约两万新加坡用户产生的短信息数据和它们之间的后续关系,引入了几个定量指标用来评测被转发的短信息的扩散性。利用这些指标确定在GE2011中最具扩散性的信息以及它们背后的用户[ 24]。这项研究成果可以利用到数字图书馆系统的设计中,以拓宽与用户沟通的渠道。
跨语言的信息组织与检索一直是信息检索领域的热点和难点,本次会议收到了来自各国的论文对一些相关的问题进行了研究和讨论[ 25, 26, 27]。新加坡南洋理工大学对跨语言的信息检索搜索引擎的检索有效性进行了研究,从查全率和查准率的角度评估4种常见的搜索引擎在英语-中文(EC)的跨语言信息检索(CLIR)方面的检索有效性。调查结果显示,对于单语的英语-英语(EE)/中文-中文(CC)搜索的平均查全率和查准率为16.5%和53.9%,对于跨语种的中文-英语(CE)/英语-中文(EC)搜索的平均查全率和查准率为7.8%和28.2%。在实验中谷歌的结果优于雅虎,EC和EE的搜索结果比CE和CC的结果更好。这些研究结果可以作为基准,提供一个对当前的Web搜索引擎的跨语言信息检索(CLIR)能力更好的了解[ 25]。美国FamilySearch International对开发针对中日韩馆藏的索引原型系统进行了研究,为了对中日韩等亚洲馆藏资源进行在线索引和检索,开发了一个在线索引工具[ 26]。为了组织多语言的馆藏资源,中国上海交通大学对杜威分类法(DDC)和中国图书馆分类法(CLC)之间的自动映射系统进行了研究,提出了基于统计映射表和手工映射表的自动映射系统[ 27]。
在信息检索系统中利用语义网技术获得更全面准确的查询结果也是当前信息检索系统研究的热点。中国南京大学的Ou等[ 28]提出了一种新的基于知识的问答(QA)方法,不同于大多数本体驱动的问答方法,这种方法不通过执行深层的问题分析将自然语言问题转化成一个本体兼容的查询来回答检索,相反,它会通过执行文本蕴含识别操作来发现从机器产生的整个集合中的一个相关用户问题所包含的问题模板,然后采用相关的SPARQL查询模板来产生与模板本体一致的语义Web数据检索答案所需要的完整查询语句,从而检索出所需要的所有检索结果。对该系统的评价结果表明,生成的问题模板可以覆盖几乎所有的用户问题,并且在一个语义蕴含引擎的支持下,65.6%的用户问题可以得到正确回答[ 28]。
ICADL2011作为亚太地区数字图书馆研究的重要学术会议,所涉及的主题几乎涵盖了数字图书馆研究及应用的所有方面,代表了亚太地区特别是亚洲地区数字图书馆研究和技术发展的前沿,对亚洲数字图书馆研究及应用发展具有一定的借鉴意义。未来几年,国内数字图书馆研究和应用可以结合几个方面开展创新研究和应用:
(1)研究数据的保存和管理,扩展现有的信息基础设施来支持对研究数据的有效保存、管理和服务;
(2)开展元知识服务的支撑技术和平台的研究,需要研究超越传统的搜索和检索模型;
(3)结合社会媒体和网络的发展,拓宽图书馆的服务模式和投资领域;
(4)结合移动设备和技术的发展,研发移动信息管理和检索的新模式。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|