工作台提供清理语料

Bappy11 · Post by **Bappy11** » Sat Feb 08, 2025 4:45 am

3.1.数据收集和准备中的计算语言学方法
为了调查集体身份，我们创建了一个报纸数据样本，其中包括从五个数字媒体门户下载的 800,000 多篇文章。数据来自六个国家的12份报纸，包含三种语言（德语、英语、法语）的文章。图 2显示了媒体门户提供的原始文本数据。[18]各媒体门户网站以自己的数据结构呈现数据。除了正文之外，文章还包含对于文本分析工作很有价值的元数据。元数据部分是结构化的，部分是半结构化的。图 2中的示例清楚地表明，必须首先访问原始文本数据，才能使用文本内容和元数据进行文本分析。

图 2：图 2 显示了数字媒体门户上提供的原始文本数据（来源：自己的插图）。
图 2：图 2 显示了数字媒体门户上提供的原始文本数据（来源：自己的插图）。
利用探索工作台，我们正在开发一种通用工具，文本科学家可以使用它来探索不同数据结构中的原始文本数据。前提条件是数据是固定的数据结构。该工作台可用于将文本数据分割为文本结构单元（以下简称“文章”）。从文章中提取孟加拉国电报数据
文本内容和元数据，并根据数据创建语料库。然后，本分析的功能。向导以直观的方式指导用户完成数据检索步骤。该向导的步骤如下所述。

3.1.1 步骤 1：将原始文本数据分解为文章
开发从原始数据的导入开始。文本科学家可以导入各种格式的文本数据：DOCX、RTF、ODT（Open Office）、HTML、TXT（无标记的纯文本）。该向导将数据转换为无标记的纯文本。我们将不同的数据格式转换为纯文本，并接受文本结构特征（字体、字体大小等）的丢失，以便能够以统一的格式存储文本，并使文本数据可供后续的计算语言处理步骤使用。在报纸文本的具体情况下，根据我们的经验，缺乏与文本结构相关的详细元数据不会产生负面影响。字符编码Latin 1和Unicode统一为Unicode。

然后用户可以在预览窗口中查看原始数据的各个部分。图 3显示了包含原始文本数据的预览窗口。

图 3：预览窗口中显示原始文本数据片段。用户定义切分规则，将原始数据切分为文本结构单元（文章）。在示例中，以字符串 kf00 开头的行将各个文章分隔开（来源：自己的插图）。
图 3：预览窗口中显示原始文本数据片段。用户定义分割规则，将原始数据分割为文本结构单元（“文章”）。在示例中，以字符串 kf00 开头的行将各个文章分隔开（来源：自己的插图）。
用户在原始数据中搜索标记项目之间边界的线索并创建分割规则。为了测试分割规则，规则涵盖的文本段落会在预览窗口中以颜色突出显示，如图1 所示。分段规则有以下函数可用：