NAVER LABS Europe 向 IWSLT 2026 指令遵循语音处理短赛道提交了一个系统,并取得了并列第一的成绩。他们的方法包括一个多阶段训练流程,该流程使用仅包含 ASR 数据的 SpeechMapper 来学习语音到 LLM 的嵌入投影器。此外,他们还开发了一个名为 fakACL 的合成数据集,该数据集使用 SeamlessM4T-large-v2 生成,以提高在科学演讲任务上的性能。这个更新后的系统在性能上超越了去年的最佳表现,同时体积更小,并使用了性能较弱的 LLM 主干。 AI
影响 这项研究通过整合 LLM 和新颖的投影方法,推进了语音处理能力,有可能改进跨语言语音翻译和理解任务。
排序理由 提交至学术会议的学术赛道项目,并附有详细论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- fakACL
- Hugging Face
- IWSLT 2026
- Marcely Zanon Boito
- NAVER LABS Europe
- SeamlessM4T-large-v2
- SpeechMapper
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →