研究人员在 Whisper ASR 模型中发现了解码器不一致性,这会导致德拉威语和其他低资源语言的词错误率更高。他们发现这些语言的单词更长、词汇多样性更大、重复性更少,从而导致稀疏的 token 分布和替换错误。为解决此问题,该论文提出了两种解码器增强方法:加权注意力(Weighted-Attention)以平衡语言和声学线索,以及自适应(Self-Conditioning)通过重新注入中间预测来提高 token 的一致性。这些方法在粘着语和低资源语言上均显示出词错误率的降低。 AI
影响 引入了提高代表性不足语言的 ASR 性能的具体技术,有可能拓宽对 AI 语音技术的访问。
排序理由 学术论文,详细介绍了对现有模型的技朧改进。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →