PulseAugur
实时 13:57:22

Whisfusion 使用掩码扩散模型实现更快、更准确的语音识别

研究人员开发了 Whisfusion,一种利用掩码扩散模型的新型非自回归自动语音识别(ASR)系统。该方法旨在匹配传统自回归模型的准确性,同时显著提高推理速度。Whisfusion 通过在冻结的 Whisper-large-v3 音频嵌入之上训练扩散解码器来实现这一点,从而实现并行解码,并在多种语言的速度和准确性方面优于现有模型。 AI

影响 将掩码扩散确立为多语言 ASR 的可行、高吞吐量替代方案,有可能加速实时转录应用程序。

排序理由 这是一篇详细介绍 ASR 新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Jongchan Kim, Hyungon Ryu, Hyuk-Jae Lee, Nam-Joon Kim ·

    Whisfusion: Parallel ASR Decoding with Masked Diffusion

    arXiv:2508.07048v2 Announce Type: replace-cross Abstract: Autoregressive (AR) encoder-decoder models dominate high-quality multilingual ASR, but their left-to-right decoders make inference latency scale with transcript length. A natural alternative, CTC-style non-autoregressive (…