可视化通常可用于澄清

Exchange insights, tools, and strategies for canada dataset.
Post Reply
Bappy11
Posts: 479
Joined: Sun Dec 22, 2024 9:30 am

可视化通常可用于澄清

Post by Bappy11 »

然而,绝大多数历史资料和文本都不是以语料库的形式提供的,而是以模拟资源和越来越多的数字资源的混合形式提供的,其中许多现在可以使用所谓的脏 OCR 和信息检索方法 进行搜索。德国以及国际版权法的特殊性导致了一种矛盾的局面,例如,许多过时的版本现在被赋予了新的荣誉,因为与仍然受版权保护的较新的历史评注版本相比,它们现在更容易被研究人员获取。当今的历史研究通常是在这种数字和模拟信息片段的混合中进行的。因此,可以通过经典的解释学方式获得新的见解,但通常速度更快,且需要更大的信息基础(取决于研究的质量)。这就增加了使用数字数据处理方法管理信息多样性并使其易于管理的需求:Zotero、Citavi、Mendeley 或 Evernote 等文献管理工具在历史学家中特别受欢迎,这并非毫无道理。与此同时,专业交流的需求和实践也在不断增加——这一发展在历史学家协会的数字历史专家小组中也可以看到,该小组大量使用推特和博客等媒体。[18]

如果模拟技术与数字技术之间的差异仅仅是数量上的,那么我们真的可以期望从数字工具和仪器中产生新知识吗?比如那些现在已经在数字人文学科中确立并被数字文学研究成功运用的工具和仪器?下面,我想用三个例子来尝试证明数字历史将来也可以从这些工具中受益,即使其中使用的方法和数学背景可能无法进入历史学位课程的课程。

4.手写文本识别(HTR)
一种很有前途的新方法是使用先进的模式识别方法自动识别手写体。传统 亚美尼亚电报数据 上,转录手写内容的尝试依赖于孤立字符识别 (OCR) 技术,该技术在近几十年中取得了显著的成果。不幸的是,手写文本中的字符分割要困难得多,甚至是不可能的,特别是因为历史文献对于自动转录很重要。当前的 HTR 技术采用了不同的方法,并结合了已经开发的各种方法,例如在语音识别方面,以获得更好的结果。隐马尔可夫模型 (HMM) 和 N-gram 用于识别模式,然后通过训练转录与用户交互,可以显著提高作者手稿的预测准确性。[19]然而,为了实现良好的 HTR 准确率,需要结合布局分析、文本行提取、预处理操作、训练、词汇和语言建模、HMM 等技术。
Post Reply