PulseAugur
实时 14:10:52
English(EN) Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

Whisper ASR 模型针对低资源语言进行改进

研究人员在 Whisper ASR 模型中发现了解码器不一致性,这会导致德拉威语和其他低资源语言的词错误率更高。他们发现这些语言的单词更长、词汇多样性更大、重复性更少,从而导致稀疏的 token 分布和替换错误。为解决此问题,该论文提出了两种解码器增强方法:加权注意力(Weighted-Attention)以平衡语言和声学线索,以及自适应(Self-Conditioning)通过重新注入中间预测来提高 token 的一致性。这些方法在粘着语和低资源语言上均显示出词错误率的降低。 AI

影响 引入了提高代表性不足语言的 ASR 性能的具体技术,有可能拓宽对 AI 语音技术的访问。

排序理由 学术论文,详细介绍了对现有模型的技朧改进。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Pankaj Wasnik ·

    克服Whisper在德拉威语和低资源语言中的解码器不一致问题

    Multilingual ASR models such as Whisper perform well on high-resource languages but exhibit substantially higher Word Error Rates (WER) for Dravidian languages compared to Indo-Aryan ones. Through linguistic and dataset analysis, we show that Dravidian languages have longer words…