究过语义网在未来

Exchange insights, tools, and strategies for canada dataset.
Post Reply
Bappy11
Posts: 479
Joined: Sun Dec 22, 2024 9:30 am

究过语义网在未来

Post by Bappy11 »

数字版本作为历史语言学的基础
任何语言研究的有效性都取决于底层文本语料库的大小和质量。在历史语言学中,这方面出现了根本的方法论问题,因为经常需要借助于编辑对源文本进行了不同程度的语言更改的版本。[1]此外,相关研究工作的数据基础往往有限。

如今,大量文本的语言分析相对容易进行,但通常缺乏足够忠实编辑的文本来确保结果的可靠性。虽然印刷文本版本的数字化可以显著扩展可用的数据库,但与原文相比语言水平偏差的问题仍然存在。

较新的数字版本在此提供了补救措施:由于与印刷版本相比,范围和可能的注释没有任何限制,因此适当的转录设计可以确保可以将任意数量的或多或少忠实的文本版本并排放置。如有疑问,可以直接访问源文本的数字副本。

本文将通过对基于数字版《Paesi novamente retrovati - Newe unbekanthe landte》的早期新高地德语印刷品图形的研究,来说明基于现代数字版的历史语言学进行定量研究的可能性。

1.2 新发现的国家- 新的、未知的国家。早期探险家报告的数字版
作为Editiones Electronicae Guelferbytanae系列的一部分, Paesi Novamente retrovati。 Et Novo Mondo da Alberico Vesputio Florentino intitulato,这是一本早期探险家报告选集,于 1507 年在维琴察出版,其中包括他 阿尔巴尼亚电报数据 们的拉丁语、早期新高地德语和低地德语的译本,这些译本早在 1508 年就已印刷出版。除了所有四份文本的传真外,意大利语源文本和早期新高地德语译本还提供 XML(TEI-P5)格式的转录本,这些转录本旨在提供基本忠实的版本和略微现代化的版本。意大利语文本的早期转录版本已被用来对 Editionio princeps 的语言特征进行语言分析。[2]
文中缩写为 NUL)。除了译文之外,这部作品还包含由乔布斯特·鲁哈默 (Jobst Ruchamer) 撰写的序言;译文本身的第 143 章抄录了葡萄牙国王伊曼纽尔一世 (Emanuel I) 于 1508 年 6 月 12 日写给教皇朱利叶斯二世 (Pope Julius II)的一封信件,以及一封关于葡萄牙舰队出发的简短信息,这条信息可以追溯到 1508 年 7 月 24 日里斯本商人的一封信。这封信和随后的报告也可以单独打印出来。[3]

1.3 语料库与工具

图 2:使用一致性程序 AntConc(版本 3.4.4w)进行分析
图 2:使用一致性程序 AntConc(版本 3.4.4w)进行分析
分析的基础是上述数字版中所含的Newe[n] unbekanthe[n] landte […]的抄本(下文中,NUL1 代表那里可用的较窄抄本,NUL2 代表进一步的抄本)[4] ,以及专门创建的印刷版Ein abschrifft eines ſandtbriefes (缩写为 ASB)的抄本,同样采用 XML 格式(TEI-P5)。除非另有说明,评估基于使用免费提供的 XML 和 XSL 文件生成的 HTML 文件。[5] NUL 转录本有超过 9,000 个词类,超过 88,200 个词符;[6]未经调整,共有 9,534 个“词类”和 88,966 个“词标记”。[7]对于 ASB 版本,文本包含 800 多个“词类”和 2,100 多个“词标记”;未经调整的选集版本包含 870 个 ›词类‹ 或 2,190 个 ›词标记‹,而独立的印刷版本包含 842 个 ›词类‹ 或 2,167 个 ›词标记‹。[8]

为了进行统计评估,使用了免费提供的一致性程序AntConc(版本 3.4.4w)[9]。显示搜索查询时,占位符(›通配符‹)在后续文本中指定如下:“*«”表示任意数量的字符,“?«”表示恰好一个字符,“+«”表示可选一个字符或没有字符;本文用下划线 (»_«) 表示搜索查询中使用的空格。

一般情况下,在选择搜索词时会注重高频度,以排除因拼写错误等原因而得出的错误结论。然而,由于语料库没有进行词形还原,有时明显的搜索查询无法被考虑,因为在大量的例子中,同形异义形式清理是不可行的。

2. NUL 的语言:»德语« - » high duͤdesch «
《新威尔士语》的译者乔布斯特·鲁刷品中的差异或办公室打印机语言具有决定性作用。[16]另一方面,施蒂赫斯同年也在纽伦堡印刷了该书的低地德语译本,[17]这表明其营销目标是整个高地德语和低地德语地区,这与一种带有地域性标记的语言相悖。
Post Reply