虽然从科学角度来看成本理想情况下只起着次要的作用,但鼓励基础设施提供商尽可能以经济高效的方式提供服务。对于基础设施提供商而言,研究数据保存和提供的成本效益主要受标准化和可扩展性因素的影响:
数据和服务的标准化:这对于与其他服务和提供商的互操作性以及研究数据中心内高效的管理流程尤其有利。采用的数据越标准化,管理所需的工作量就越少,并且越容易实现增值服务,例如基于通过 OAI-PMH 交换元数据的综合搜索门户。
服务的可扩展性:数据越标准化,存档和交付数据的服务可扩展性就越好。随着数据和流程变得越来越异构,服务的可扩展性不断降低,这不一定符合基础设施提供商的利益。
然而,正如上面指出的,人文研究数据的异质性意味着许多存档和提供这些数据的服务无法扩展。可扩展服务最有可能适用于简单的对象类别,因为可以根据经验很好地估计和计算摄取(即传输到数据中心)和一定时间后的提供的工作量。但由于复杂数据对象的转移可能大多是孤立案例,导致人力资源和成本难以计算。
3.4 中期摘要
研究数据中心提供的服务组合必须在科学的要求和基础设施提供商的要求或可能性之间找到折衷点。一个明显的选择是提供一系列服务,除了为简单对象模型提供通用的、可扩展的服务之外,还提供用于捕获、存档、呈现和科学重用复杂数据结构的专门服务,并且致力于与其他研究数据中心的服务进行合作补充或分工。鉴于与科学家的密切合作已经不可避免,各个研究数据中心可以专注于某些研究数据领域,因此所谓的困难可能会成为优势。
4. 研究数据类型作为报价的工具
4.1 程序
为了帮助提出该提议[43],并为了在科学和基础设施提供者的要求之间找到合理的折衷方案,在 HDC 设计阶段定义了所谓的研究数据类型,并根据联盟中可用的研究项目和经验,沿着上述科学需求维度设计了具体的提议。
为此,首先检查参与 HDC 设计阶段的联盟合作伙伴的异构数据集是否存在共性,并将其合并为研究数据类型组。目的是根据众多可能的数据模型找到一种可行的方法来缩小研究范围,同时可以实现上述不同研究数据中心之间的分工。在 HDC 项目环境中,研究数据类型被理解为具有技术、方法和信息科学相似性的一组研究数据的理想典型表示 - 例如关于收集、分析和呈现方法。[44]在该联盟内,确定了以下基本研究数据类型:
数据库,
数字版,
图像格式,
(采访)视频录像,
用于数据交互式可视化的应用程序。
从以下几个方面对它们进行了审查,以得出需要开发的基础设施的具体要求:
技术层面(例如格式、应用程序),
信息科学层面(元数据、互操作性),
科学程度(重要性质、科学含量)。[45]
下面,使用来自该联盟的具体示例更详细地描述三种研究数据类型。
4.2 研究数据类型:数据库
在 HDC 项目的背景下,术语“数据库” [46]并不指特定的科学方法,而是作为»(半)结构化条目的(有序)列表« [47]的抽象集合术语。数据库可以是研究项目的主要成果,但也可以是一种工具,例如,仅仅为了辅助编辑项目中的文本索引而构建的。然而,在这两种情况下,它都是研究的基本(中间)结果。以柏林古典主义为例,更详细地解释研究数据类型数据库(见图1)。
柏林古典主义学院项目(BBAW,持续时间 2000-2013) 研究了 1786 年至 1815 年柏林的文化繁荣。为此,记录了艺术、科学和商业成就。除了书面出版物外,研究成果还包括五个致力于描述柏林社会网络化的数据库。柏林古典音乐数据库最初是作为工作工具,后来作为展示工具。目前,可以通过一个公共门户访问四个数据库(个人数据库、文学数据库、国家剧院数据库和社交数据库)。记录的内容主要包括姓名、地点、书目信息和日期。通过链接各个数据库,创建了附加搜索功能,如果链接丢失,这些功能就有丢失的危险。
图 1:基于柏林古典主义的研究数据类型数据库的简化表示。引用自:Andreas Aschenbrenner 等人:人文数据中心——为人文研究数据中心提供的服务和流程。 HDC 项目报告第 1 号。OO 2015,第 30 页。[在线]
图 1:基于柏林古典主义的研究数据类型数据库的简化表示。引用自:Andreas Aschenbrenner 等人:人文数据中心——为人文研究数据中心提供的服务和流程。 HDC 项目报告第 1 号。OO 2015,第 30 页。[在线]
由于研究数据类型数据库只能被不精确地定义,并且项目内的所有临时解决方案并非都必须转移到 LZA,因此目前很难准确估计需求。在未来,与以下研究数据类型一样,重要的是从一开始就将可持续性方面纳入项目的数据库规划和实施中,其中来自 HDC 等数据中心的建议可以发挥核心作用(参见第 6 节:通用应用系统)。
4.3 研究数据类型:数字版
正如不存在所谓的“数据库”一样,也不存在所谓的“数字版”。[48]一方面,数字版这个术语可以用不同的方式来定义,[49]另一方面,在具体实施中可以采用不同的方法。尽管数字版可以存储在数据库中以供展示,但它们通常与研究数据类型的数据库不同,因为它们充分探索文学和历史来源并将其转换为合适的展示形式。复杂的数字版本可以同时显示不同层次的表现形式,如图像、外交记录、编辑文本、解释和二次文本,但只能转换成线性表现形式或适合打印的形式,从而导致信息丢失,即或多或少丢失大部分研究成果。虽然在原始数据层面上已经为数字版建立了元数据标准和标准格式,例如XML TEI、XML MEI、TUSTEP 或 TIFF,但交互式呈现格式的实现却有很大差异。[50]
图 2:基于康德版本的研究数据类型数字版本的简化表示。引用自:Andreas Aschenbrenner 等人:人文数据中心——为人文研究数据中心提供的服务和流程。 HDC 项目报告第 1 号。OO 2015,第 28 页。[在线]
图2:基于康德版本的研究数据类型数字版本的简化表示。引用自:Andreas Aschenbrenner 等人:人文数据中心——为人文研究数据中心提供的服务和流程。 HDC 项目报告第 1 号。OO 2015,第 28 页。[在线]
我们以《伊曼纽尔·康德遗作》(BBAW,自 2001 年开刊,见图2 )的在线版 为例,该版本旨在出版康德遗作的新版本。技术结构如下:
原始数据层/来源:原始数据包括带有注释的文本(XML/TEI 格式)、链接的数字副本(例如图像格式)以及设备和寄存器(XML 格式)。
转录层:在基于 eXist 的 XML 数据库中,原文的转录与相应的数字副本相链接。
表示层:通过基于 Web 的发布层,使用 XML 数据库和 XSLT 脚本(即在传统浏览器中),将转录内容以 HTML 等各种格式输出。原始抄本与手稿外交顺序中的数字化传真件以相互、逐段关联的方式呈现 。 [51]
4.4 研究数据类型:数据可视化
在 HDC 提供创世纪的背景下,研究数据类型数据可视化[52]被定义为基于数据库的、以交互方式呈现吸引人眼球的研究数据。在这种情况下,重点在于实现演示和交互的工具,而不是可视化背后的数据。[53]
我们将研究MPI MMG [54] 开发的应用程序“全球移民流” [ 55 ] ,该应用程序专注于移民运动,并能够在传统浏览器中汇编有关 1970 年至 2011 年期间移民运动的单独数据集(见图3)。这使得以简单明了的方式说明移民的收益或损失成为可能。
由于数据可视化与其演示环境紧密相关,长期存档解决方案必须考虑其特定的多层次性质,以保持其附加值。通常,基于浏览器应用程序的数据可视化至少包含三层:
数据库中提供的已处理和规范化的数据。准备工作取决于数据可视化的目的,复杂程度各有不同——从简单的 Excel 表到复杂的数据库。
处理层(中间件)获取规范化的数据并将其传递给用户的客户端应用程序。
其顶层的表示层用作用户界面。 [56]
图 3:以全球移民流为例,研究数据类型数据可视化的简化表示。引用自:Andreas Aschenbrenner 等人:人文数据中心——为人文研究数据中心提供的服务和流程。 HDC 项目报告第 1 号。OO 2015,第 34 页。[在线]
图 3:以全球移民流为例,研究数据类型数据可视化的简化表示。引用自:Andreas Aschenbrenner 等人:人文数据中心——为人文研究数据中心提供的服务和流程。 HDC 项目报告第 1 号。OO 2015,第 34 页。[在线]
这种复杂性会造成各种后果。与文本、图像或视频相比,数字数据可视化迄今为止在 澳大利亚电报数据 图书馆或档案环境中几乎没有发挥任何作用。由于它们的特定属性,它们不能简单地转移到基于文件的存储库,否则会丢失信息价值,因为它们通常不是基于文件的,而是基于数据库的,并且表示对象之间的关系。
在研究数字化、准备和呈现数字研究数据的工具越来越容易获得(在可用性和标准化方面)以及(大量)数字数据的可用性不断提高的背景下,科学数据可视化主题变得越来越重要。新技术的使用以及访问和联网分布式数据集的可能性使得关系的有吸引力的表示成为可能——特别是对于感兴趣的公众而言。可视化可以丰富基于文本的出版物并提高其质量,从而满足研究人员和资助机构的需求。目前,实现可视化仍然需要非常具体的 IT 专业知识,但未来可能会出现一些工具,甚至非 IT 用户也可以使用它们来相对轻松地创建可视化。[57]因此,研究数据中心必须能够为此类研究数据提供长期存档解决方案,并在适当的情况下,让研究人员可以通过通用应用系统使用这些数据。