English(EN) Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

新模型使用连续空间进行语音识别和翻译

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员推出了一种名为ELF-S2T的新型语音转文本系统方法，该系统在连续潜在空间而非离散文本标记中运行。该模型基于嵌入式语言流（ELF）骨干，将音频条件和流匹配去噪用于语音识别和翻译任务。在标准数据集上的实验表明其性能具有竞争力，并揭示了识别和翻译中的错误源于此连续潜在空间中相似的混淆。 AI

影响这项研究通过利用连续潜在空间，为语音识别和翻译提供了一种统一的方法，可能简化未来的模型开发。

排序理由该集群包含一篇详细介绍新模型架构和实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xuanchen Li, Tianrui Wang, Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang · 2026-06-10 04:00

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

arXiv:2606.10368v1 Announce Type: cross Abstract: Speech-to-text (S2T) systems for recognition (ASR) and translation (S2TT) typically generate discrete text tokens. In contrast, continuous-target language modelling performs generation in a continuous space, yet its potential for …