工作台提供清理语料

Exchange insights, tools, and strategies for canada dataset.
Post Reply
Bappy11
Posts: 477
Joined: Sun Dec 22, 2024 9:30 am

工作台提供清理语料

Post by Bappy11 »

3.1.数据收集和准备中的计算语言学方法
为了调查集体身份,我们创建了一个报纸数据样本,其中包括从五个数字媒体门户下载的 800,000 多篇文章。数据来自六个国家的12份报纸,包含三种语言(德语、英语、法语)的文章。图 2显示了媒体门户提供的原始文本数据。[18]各媒体门户网站以自己的数据结构呈现数据。除了正文之外,文章还包含对于文本分析工作很有价值的元数据。元数据部分是结构化的,部分是半结构化的。图 2中的示例清楚地表明,必须首先访问原始文本数据,才能使用文本内容和元数据进行文本分析。

图 2:图 2 显示了数字媒体门户上提供的原始文本数据(来源:自己的插图)。
图 2:图 2 显示了数字媒体门户上提供的原始文本数据(来源:自己的插图)。
利用探索工作台,我们正在开发一种通用工具,文本科学家可以使用它来探索不同数据结构中的原始文本数据。前提条件是数据是固定的数据结构。该工作台可用于将文本数据分割为文本结构单元(以下简称“文章”)。从文章中提取 孟加拉国电报数据
文本内容和元数据,并根据数据创建语料库。然后,本分析的功能。向导以直观的方式指导用户完成数据检索步骤。该向导的步骤如下所述。

3.1.1 步骤 1:将原始文本数据分解为文章
开发从原始数据的导入开始。文本科学家可以导入各种格式的文本数据:DOCX、RTF、ODT(Open Office)、HTML、TXT(无标记的纯文本)。该向导将数据转换为无标记的纯文本。我们将不同的数据格式转换为纯文本,并接受文本结构特征(字体、字体大小等)的丢失,以便能够以统一的格式存储文本,并使文本数据可供后续的计算语言处理步骤使用。在报纸文本的具体情况下,根据我们的经验,缺乏与文本结构相关的详细元数据不会产生负面影响。字符编码Latin 1和Unicode统一为Unicode。

然后用户可以在预览窗口中查看原始数据的各个部分。图 3显示了包含原始文本数据的预览窗口。

图 3:预览窗口中显示原始文本数据片段。用户定义切分规则,将原始数据切分为文本结构单元(文章)。在示例中,以字符串 kf00 开头的行将各个文章分隔开(来源:自己的插图)。
图 3:预览窗口中显示原始文本数据片段。用户定义分割规则,将原始数据分割为文本结构单元(“文章”)。在示例中,以字符串 kf00 开头的行将各个文章分隔开(来源:自己的插图)。
用户在原始数据中搜索标记项目之间边界的线索并创建分割规则。为了测试分割规则,规则涵盖的文本段落会在预览窗口中以颜色突出显示,如图1 所示。分段规则有以下函数可用:
Post Reply