数字人文和计算化社会科学及其对图书馆的挑战
1美国斯坦福大学图书馆
2中国海洋大学 青岛 266100
Michael A. Keller(著)1, 王宁(译)2

*本文根据Michael A. Keller在第十一届“数字图书馆前沿问题高级研讨班”报告翻译整理, 小标题由译者添加。

我愿意与大家一起分析数字人文和计算化社会科学的研究与实践, 探讨这类发展的原因以及这一新领域的挑战。

1 数字人文和计算化社会科学的类型

几个月前, 斯坦福大学图书馆与法国国家图书馆合作, 共同发布了法国大革命电子数据库(French Revolution Digital Archive)[ 1],包括101卷法国议会档案以及数以千计的大革命时期图像资料, 可供在互联网上搜索和阅读。该项目跨大西洋的团队耗时7年汇集这些资源,其中4-5年时间用以调查仍在著作权保护期的资料的版权归属。这个数据库是数字人文研究中的一种类型, 即汇集数字内容、构建电子文献数据库。另一个经典例子是“荫郁幽谷”项目(Valley of the Shadow)[ 2], 由弗吉尼亚大学艾德·埃尔斯(Ed Ayres)的团队组织完成。该项目将人们熟知的文选进行数字化,延伸了这些文选的功能,允许人们进行更深入的搜索,有助于人们更深刻地理解文选内容本身。这些文选通常包含图片, 就像法国大革命电子数据库一样。这些项目使学者能够远程工作和协作, 且以现代手段迅速进行评论。

第二种类型可称为“互动式学术”, 有三个分支。几乎其中所有这些项目都用到了先进的视觉化技术, 很多还使用地理空间信息系统展现工作结果。“互动式学术”的第一个分支称为模拟模型, 例如斯坦福大学研发的ORBIS系统(Stanford Geospatial Network Model of the Roman World)[ 3], 建立了模拟古罗马地理信息的网络模型, 可以提供多达700多座古罗马城市之间一年中不同时期内的贸易路线和通讯状况的信息。虽然这一模型的主要研究对象是古罗马帝国, 但却能使人们直观地审视汇集自不同渠道的信息, 为学者们提出相关领域新的学术假设和新的科研方向提供了极大的便利。ORBIS作为模拟模型的典型案例, 不仅仅能用以研究罗马帝国的贸易路线;更体现了一种理念, 即从多种渠道采集数据信息, 将采集的信息展示给研究者, 可根据研究问题进一步汇总。这个理念可以应用在任何其他的关于社会和人类行为问题的研究上。“互动式学术”的第二个分支可称为一种参考工具, 例如“英国家族”项目(Kindred Britain )[ 4]。该项目对收集自8个不同渠道的传记内容进行数字化处理(并将陆续添加更多信息), 可视化展示英国伟人之间的家族关系, 例如达尔文和亨利八世具有什么血缘关系。该理念可以用以处理任何社会中的社会关系。“互动式学术”的第三个分支就是空间历史实验室项目(Spatial History Lab)[ 5], 其中最令人欣赏的例子就是“通往自由的破碎之路”子项目(The Broken Paths of Freedom), 这是研究巴西奴隶买卖的历史。它首先汇总各个历史时期的数据和信息, 然后将这些信息标注在地图上。它深度挖掘文本, 跨各个时间点揭示新的知识和对历史的理解。任何使用工具来分析整个文本信息、并使用量化方法将文本作为数据进行研究的模式都属于这一分支。这种模式依赖于各个阶段数据和信息的收集, 并在地图上标记。一位斯坦福大学的研究生也在进行一个项目, 主要研究葡萄牙语在欧洲大陆和巴西这两个不同地域的进化过程。到目前为止, 人们大概分析了来自巴西与葡萄牙的5万多份文本。这是一个杰出的语言学研究项目, 几年前该项目根本无法实现。这也是一个实实在在的跨学科工程, 将语言学家、文学家以及进化论生物学家聚集到一起, 这个生物学家迫切地想要知道从葡萄牙或巴西这两条线的角度分别都发生了什么, 希望从进化论–生物角度或者是数学–生物角度解释这个问题。

另一种类型的数字人文和计算化社会科学, 在有时被称为“强化版书籍”(Augmented Books), 但是我把它叫作“新型叙述体”(New Narrative)。它包含一系列文本和口头叙述, 嵌入其他的媒体对象, 极大地丰富了人们的沟通信息机制。一个很贴切的例子就是“撰写南方”项目(Composing Southern)[ 6], 主要研究美国南方的语言和文化。另一个类似项目叫做“鲨鱼和鲤鱼的游戏” (A Game of Shark and Minnow)[ 7], 研究菲律宾周边海岸文化, 曾被《纽约时报》报道, 具有很高的应用价值。

2 数字人文和计算化社会科学的意义与挑战

为什么人们要研究数字人文和计算化社会科学?首先, 这些收集、展示和研究数据的方法能够促使人们提出新的问题。旧的问题依然存在, 也依然会有人去问, 但现在我们可以提出更多新的问题, 而且通常是跨学科的问题。数字人文与计算化社会科学也使得跨学科答案的出现成为可能, 也只能通过这些新技术才能抓住针对这些新问题的新知识。斯坦福大学文献实验室(Literary Lab)负责人弗朗哥·莫雷提(Franco Moretti)教授将这一点归纳为“文化历史的宏观研究”(Macroscopic Study of Cultural History)。

其次, 数字人文和计算化社会科学可以为人们提供前所未有的海量数据和元数据。这些数据可以是单一类型的, 例如文本信息, 也可以是复合类型的, 例如包括文本、图片、数据或者地图。这通常包括内容的数字化, 一般要求对内容进行结构化编码。计算机不知疲倦的、近乎僵硬般规范化的处理能力使得这些变得可能, 但正是学者们的创造力保证计算机能够有意义地利用这些海量数据。美国哥伦比亚大学的斯蒂芬·默里(Stephen Murray)正牵头进行一个研究法国罗马和哥特式建筑的项目, 通过该项目, 可以对罗马与哥特式建筑进行测量并将其可视化, 研究古罗马建筑师建造从牧区教堂到大教堂在内的各种建筑物的构思模型。研究者们通过激光进行测量从而精确重塑这些建筑物的比例, 并对它们进行比较。

所有的数字人文与计算化社会科学类型都为学者们提供了协作协商的可能, 即使相距千里, 研究者可以共同研究同一个文化现象或研究对象。从某种意义上, 更重要的是, 学者们可以通过群体外包的方式将学生或更多的参与者邀请到同一个项目中来, 将初学者们引进新领域, 通过自己的热情激励新来者。这些项目必须解决在证据、资料溯源引证、多类媒介形式、逻辑思维、组织和复杂数据阵列等方面面临的问题。多媒体、数字化和网络化表达技能是必须的。无论对研究者还是参与者, 所有这些项目都是非常理想的实验室, 让人们“实地”地灵活处理数据进行学习。几乎所有这些项目都包含数据重用和重新混合的过程, 无论是文本、图片, 还是其他任何形式。我们将拥有一个广泛的、可应用于许多不同项目的信息集合。

数字人文和计算化社会科学将使更多的人与人文学科和社会科学产生互动。我们在这些学科集群中的问题在一定程度上是我们自己造成的。如何向公众解释, 为什么我们要做我们现在正在做的事情?为什么我们做的事情是有趣的?我们的许多项目非常精彩, 但要将这种精彩和激情传递给一般民众, 又非常困难。这些数字人文和计算社会科学项目能够让更多的人参与到我们的工作中来, 这点对于这些学科极为重要。

现在, 数字人文和计算化社会科学可谓是百花齐放。人们忙着进行项目申请并获得各种资助, 忙着收集数据或者以各种方式对数据编码。事实上, 很多项目已经持续了足够长时间, 建立了内容编辑与维护机制。真正的问题在于理解所有这些项目的范围和走向。我们还没有一个很好的方式来了解谁在负责做什么以及如何支持彼此的交汇, 而这却是很重要的。另一方面, 十分重要的是参与这些工作的学者不需要自己发现和连接不同地方开展的工作的每项内容。比起拥有一个单独机构收获果实, 更重要的是拥有百花齐放的氛围。

现在面临的一个严重问题是, 针对这些项目严重地缺乏同行评审过程。像期刊论文那样对知识整体贡献的重要性的同行评审, 在这些项目中很少见。这点很令人惭愧, 因为在这种情况下, 这些项目就难以用到聘任、升职和终身教职评审中, 尤其是对于青年教师而言。这些很可能是许多研究生生涯中的学术巅峰的互动式项目会不会被广大同行以及学界接受呢?现在还不会(至少据我所知)。我们需要把贡献的性质与所完成工作的轰动效应区别开来。两者的确是相互联系的, 但所提出的问题和能给出的答案的性质也是极端重要的。这一领域似乎存在一种回音室效应: 有些学者一直只参加同样的会议。我们需要找到方法扩展对所发生事情的了解, 才可能适应或者采纳别人研究出来的方法。

当然还有可持续性的问题。许多顶尖的项目都是由首席科学家带领一个由学生或教工组成的团队进行的。但如果首席科学家撤出而进行其他项目的研究时, 原先项目会经历哪些变故呢?如何才能使这些项目持续发展下去, 使人们不仅会在十年内、而是在一个世纪或者五个世纪持续访问这些项目?如何才能将这些知识传承下去, 就像纸质书籍一样, 延续存在数个世纪?作为图书馆, 如何协助组织和保存这些研究项目的基础成果, 以使这些内容能在另外的时间和地点对其他人起到帮助?要做到这一点, 支持数据的复用和混合是极为重要的。

支持共享数据的技术架构和元数据的内容与质量也是十分重要的。如何理解数据以及数据的编码?是不是能提供应用程序界面来支持人们获得数据、并跨项目地使用数据?项目本身能否帮助初学者熟悉项目的所有可能功能?有没有清晰的互动模型?有没有适合用户的界面?有没有能够供基础教育体系中的教师使用的模型或者案例, 使他们也能够利用这些数字项目和数字人文领域的研究成果?

图书馆、图书馆员以及学术计算服务方面的同仁能够在选择源资料、整理和发布元数据、资源数字化、编写目录与索引以广泛传播、数字化存储、项目宣传培训以及建立合适的技术框架等问题上, 发挥明显的作用。斯坦福大学图书馆已经开始投入此项工作, 我们也正与斯坦福大学出版社的同事们一同预计于明年发布这些互动学术的成果。

参考文献
[1] http://frda.stanford.edu. [本文引用:1]
[2] http://valley.lib.virginia.edu. [本文引用:1]
[3] https://digitalhumanities.stanford.edu/orbis. [本文引用:1]
[4] http://kindred.stanford.edu. [本文引用:1]
[5] http://spatialhistory.stanford.edu. [本文引用:1]
[6] http://www.jacquelinehettel.com/composing-southern/. [本文引用:1]
[7] http://www.nytimes.com/newsgraphics/2013/10/27/south-china-sea/. [本文引用:1]