研究人员开发了Vividh-ASR,这是一个旨在评估印度语言(特别是印地语和马拉雅拉姆语)自动语音识别(ASR)模型的新基准。该基准将音频分为四个复杂性级别:录音室、广播、即兴和合成噪声,旨在解决模型在朗读语音上表现良好但在即兴音频上表现不佳的“录音室偏见”。他们的研究表明,特定的训练策略,如早期的大参数更新和难易课程,可以显著提高性能,尤其是在即兴语音方面。他们还引入了一种参数高效的训练方法,反向多阶段微调(R-MFT),该方法允许较小的模型匹配或超越较大的模型。 AI
影响 解决了低资源语言中的ASR模型偏见问题,有可能提高即兴语音的性能,并实现更高效的模型训练。
排序理由 该集群包含一篇介绍ASR模型新基准和训练方法的学术论文。
- Hindi
- Malayalam
- Vividh-ASR
- Whisper
- Distil-Whisper
- IBM Granite
- NVIDIA Canary
- Reverse Multi-Stage Fine-Tuning (R-MFT)
- Wav2Vec2
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →