PulseAugur
实时 10:57:40
English(EN) Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

新模型使用连续空间进行语音识别和翻译

研究人员推出了一种名为ELF-S2T的新型语音转文本系统方法,该系统在连续潜在空间而非离散文本标记中运行。该模型基于嵌入式语言流(ELF)骨干,将音频条件和流匹配去噪用于语音识别和翻译任务。在标准数据集上的实验表明其性能具有竞争力,并揭示了识别和翻译中的错误源于此连续潜在空间中相似的混淆。 AI

影响 这项研究通过利用连续潜在空间,为语音识别和翻译提供了一种统一的方法,可能简化未来的模型开发。

排序理由 该集群包含一篇详细介绍新模型架构和实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Xuanchen Li, Tianrui Wang, Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang ·

    Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

    arXiv:2606.10368v1 Announce Type: cross Abstract: Speech-to-text (S2T) systems for recognition (ASR) and translation (S2TT) typically generate discrete text tokens. In contrast, continuous-target language modelling performs generation in a continuous space, yet its potential for …