English(EN) Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

Whisper ASR 模型针对低资源语言进行改进

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 14:18

研究人员在 Whisper ASR 模型中发现了解码器不一致性，这会导致德拉威语和其他低资源语言的词错误率更高。他们发现这些语言的单词更长、词汇多样性更大、重复性更少，从而导致稀疏的 token 分布和替换错误。为解决此问题，该论文提出了两种解码器增强方法：加权注意力（Weighted-Attention）以平衡语言和声学线索，以及自适应（Self-Conditioning）通过重新注入中间预测来提高 token 的一致性。这些方法在粘着语和低资源语言上均显示出词错误率的降低。 AI

影响引入了提高代表性不足语言的 ASR 性能的具体技术，有可能拓宽对 AI 语音技术的访问。

排序理由学术论文，详细介绍了对现有模型的技朧改进。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Pankaj Wasnik · 2026-06-08 14:18

克服Whisper在德拉威语和低资源语言中的解码器不一致问题

Multilingual ASR models such as Whisper perform well on high-resource languages but exhibit substantially higher Word Error Rates (WER) for Dravidian languages compared to Indo-Aryan ones. Through linguistic and dataset analysis, we show that Dravidian languages have longer words…

报道来源 [1]

克服Whisper在德拉威语和低资源语言中的解码器不一致问题

相关实体

相关话题