近年来,使用语音作为生物识别参数一直是许多研究的主题,尽管由于各种技术支持,它目前已呈爆炸式增长:语音命令、操作系统、网站和应用程序、允许您执行操作的移动设备操作,例如无需键入任何内容即可查找信息。
渴望以更简单、更直接的方式执行我们每天所做的操作,需要为那些无法以传统方式进行交互的人们提供许多行动,以及对新的和更多内容的兴趣增加可靠的安全措施,使这一新现实引起人们极大的兴趣。
语音识别的基础知识
我们经常在 Google 生态系统中谈论 菲律宾电子邮件列表 语音搜索,但对解释人类语言的基本机制的功能并没有清晰的了解。
关于机器学习的讨论越来越多。众所周知,这些技术基本上涉及两个执行阶段:
训练阶段,系统根据一些数据和示例输入学习并选择要实施的决策;
测试阶段,其中自动机必须对其未知的数据和信息做出决策。
在我们的例子中,输入由音频文件给出:
在训练阶段,将一个或多个文件作为系统的输入,以便它可以生成尽可能忠实地代表给定个体的声音特征的模型。为此,需要一个特征提取阶段来表示表征人的声音的特征。提取特征后,就可以训练系统生成识别特定说话者的模型。
然而,对于测试阶段,输入仅由音频文件表示,提取音频文件的特征,然后在称为匹配的阶段与各种已知模型进行比较。在此阶段,会产生分数, 代表给定模型正确的概率。
然后使用这些分数做出最终决策:在识别的情况下,通常会输出获得最高分数的模型,而对于验证来说,决策更加微妙,因为它基于可以在训练期间确定的阈值阶段。
在这种情况下,梅尔倒谱系数(MFCC)和线性预测系数(LPC)也可用于识别低级特征以及 训练中使用的隐马尔可夫模型(HMM)和高斯混合模型(GMM)阶段。
所有这些都有助于理解对我们来说看似平庸的事物如何需要绝对不明显和平庸的计算、处理和学习阶段。
当一切都转移到在线可见性的范围时,对调节这些过程的模型没有任何远见,我们只能依靠我们掌握的数据以及在语音识别、机器学习和自然领域发布的一些专利。语言解释。