研究人员开发了 Whisfusion,一种利用掩码扩散模型的新型非自回归自动语音识别(ASR)系统。该方法旨在匹配传统自回归模型的准确性,同时显著提高推理速度。Whisfusion 通过在冻结的 Whisper-large-v3 音频嵌入之上训练扩散解码器来实现这一点,从而实现并行解码,并在多种语言的速度和准确性方面优于现有模型。 AI
影响 将掩码扩散确立为多语言 ASR 的可行、高吞吐量替代方案,有可能加速实时转录应用程序。
排序理由 这是一篇详细介绍 ASR 新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →