及必要的背景知识和对文本的理解

Exchange insights, tools, and strategies for canada dataset.
Post Reply
Bappy11
Posts: 479
Joined: Sun Dec 22, 2024 9:30 am

及必要的背景知识和对文本的理解

Post by Bappy11 »

3.2 训练集与测试集的形成
机器学习方法基于训练算法,通过反复运行和迭代调整参数来完成。为了确定算法通过某些参数实现的结果有多好,必须知道最佳结果应该是什么样的。[29]因此,必须首先对整个语料库的一个子集——训练集——进行分析,而无需机器学习。然后可以使用机器学习方法训练算法来识别给定的模式。机器学习中存在应该避免的过度拟合风险。有可能,经过训练后,算法对训练集中的文本进行了如愿的分析,但对语料库的其余部分却没有产生良好的结果,这意味着训练集的选择不能代表整个语料库。为了避免这种行为,可以采取两种措施。首先,可以在第二个先前分析过的语料库(测试集)上检查训练算法的行为,该语料库可以比训练集小。将数据分为训练集和测试集有助于识别可能由单侧训练集引起的偏差。防止训练集和测试集文本选择片面的第二种措施是从先前形成的总语料库中随机选择文本以获得具有代表性的子集。

3.3 主题的发展:手动与机器
对于训练集和测试集,需要对文本进行手动分析。定性内容分析方法适合此目的。[30]

由于处理文本时经常存在主观差异,因此将分析分散到不同的人身上是有用的,即由几个人处理一个文本,以便检查可靠性。如果信度,即分析的可靠性太差,研究人员就很难清楚地证明所制定的主题,因此该主题对于机器学习方法来说就没有多大用处。在这种情况下,必须重新设计主题的表述,并在研究人员之间的对话中记录下来。通过实现高水平的可靠性,为机器学习过程创建了一个良好的起点。与手动分析相比,计算机辅助文本分析的另一个优势是结果的可重复性。

在“光谱分析”项目中,使用当代手册和教科书开发主题。这意味着在开始分析文本时已经有一份全面的可能主题列表。然而,在所分析的文本中也出现了以前未记录的其他主题,这些主题随后被纳入文档中。文本主题的识别通常需要较高的文本理解能力,同时也需要光谱分析主题的背景知识。值得注意的是,始终需要人文学科的专业知识来识别主题中的“含义”,当然这会根据问题而有所不同。基于机器的主题建模在不久的将来可能无法提供如此深入的结构。因此,这里建议不要阐述复杂的主题。相反,如果增加粒度,就可以更轻松地捕获大量文本。复杂的分析转向对结果的解释。在那里,可以通过单独的简单主题(下面称为“小主题”)以

这里和下面提出的步骤结合了两个项目中的手动方法和机器方法。在“儿童世界”项目中,如开头所述,与“频谱分析”​​项目不同,主题是使用 LDA 创建的,随后检查其意义。经过几次运行后,这些运行完全由项目的“技术人员”监督,主要用于优化 LDA,向专家展示了几个不同长度(50 个主题、100 个主题、200 个主题)的主题列表,并由专家根据其明显的信息价值(连贯性)和可能的错误进行评估。这些评估现在反映到模型中,并且这里使用的 LDA 变体得到了逐步改进。[31] 尽管语料库规模庞大(总语料库约 800,000 页,仅调查期间就达 646,171 页),但以句子为单位进行计算被证明是合理的。

除了姓名(地名和人名)的不同拼写、非标准正字法以及 Fraktur 字体在 阿根廷电报数据 OCR 处理中的普遍问题之外,19 世纪的教科书还对主题建模提出了特殊的挑战。如果没有过滤,大量缩写很快就会占据话题。同样,详细的结构和文本元素,即目录、(子)标题、表格和说明文字,代表了一个特定的特征。为了使这个问题易于管理,可以选择两个类别来设置垃圾过滤器:“每页至少 3 个句子,至少 50 个单词,每个单词的特殊字符比例尽可能低”和“每句至少 5 个单词单位”;这两种设置都会阻止从太小的句子片段或单元来计算主题,从而扭曲结果。如果激活这些功能,语料库将减少到 645,141 页。事实证明,“媒体类型”过滤器在从主题计算中过滤掉表格、标题等中的单词时用处有限,因为必须依赖外部服务提供商标记的元数据的质量,但这并不统一。

然而,另一个问题,即两个主题复合体在一个主题中的连接或混合,可以通过训练主题模型在一定程度上进行控制。然而,诸如“战役”和“战争”等一般术语或诸如“弗里德里希”和“路德维希”等个人名字的处理仍然是该项目尚未解决的任务,因为这些术语在不同时代(即中世纪和现代)的教科书中使用。对加权主题、命名实体识别或本体进行进一步的实验将会很有帮助,因为到目前为止,这些实验仅在“儿童世界”项目中进行了部分测试。

战争主题出奇的清晰,即使有时乍一看并不总是清楚普鲁士指的是哪场战争,例如对西里西亚的战争或对法国的战争。只有通过审查相关文件才能得到澄清。在“儿童世界”项目中,Solr 网络平台允许结合元数据(包括收藏、学校类型/形式、教育水平、地区、教派、性别)展示主题随时间的发展情况。使用“组比较”功能,您可以在 Excel 表中显示数字。该功能允许比较两个类别;变化以绝对值和百分比形式显示,并且最大的负偏差和正偏差以颜色标记。
Post Reply