Whisfusion 使用掩码扩散模型实现更快、更准确的语音识别

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员开发了 Whisfusion，一种利用掩码扩散模型的新型非自回归自动语音识别（ASR）系统。该方法旨在匹配传统自回归模型的准确性，同时显著提高推理速度。Whisfusion 通过在冻结的 Whisper-large-v3 音频嵌入之上训练扩散解码器来实现这一点，从而实现并行解码，并在多种语言的速度和准确性方面优于现有模型。 AI

影响将掩码扩散确立为多语言 ASR 的可行、高吞吐量替代方案，有可能加速实时转录应用程序。

排序理由这是一篇详细介绍 ASR 新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Jongchan Kim, Hyungon Ryu, Hyuk-Jae Lee, Nam-Joon Kim · 2026-06-10 04:00

Whisfusion: Parallel ASR Decoding with Masked Diffusion

arXiv:2508.07048v2 Announce Type: replace-cross Abstract: Autoregressive (AR) encoder-decoder models dominate high-quality multilingual ASR, but their left-to-right decoders make inference latency scale with transcript length. A natural alternative, CTC-style non-autoregressive (…

报道来源 [1]

Whisfusion: Parallel ASR Decoding with Masked Diffusion

相关实体

相关话题