研究人员开发了一种名为InterAligner的新方法,以提高基于对齐器-编码器的自动语音识别(ASR)模型的训练稳定性和性能。该方法引入了一个中间对齐器目标和一个中间CTC损失,使得对齐过程能够在模型层之间渐进地形成,而不是突然发生。在LibriSpeech数据集上使用17层Conformer进行测试时,InterAligner在test-clean/other上的词错误率(WER)分别为3.1%/5.6%,优于以前的方法,尤其是在处理较长的语音时。 AI
影响 这项研究可能带来更强大、更准确的语音识别系统,尤其是在处理较长的音频输入时。
排序理由 该集群包含一篇详细介绍自动语音识别模型新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →