English(EN) From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation

新的S2ST框架使用类型学先验实现更好的多语言翻译

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 15:01

研究人员开发了S2ST-Omni 2，一个超越简单语言标签的多语言语音到语音翻译新框架。该系统整合了类型学先验，在多层级上构建语言条件化，包括分层编码、动态声学调制和LLM提示。在CVSS-C数据集上的实验表明，S2ST-Omni 2在各项指标上表现优越，消融研究证实了其提出策略的益处。该框架在数据高效翻译方面也显示出潜力，这一点通过使用有限训练数据的日语到英语评估得到了证明。 AI

影响通过整合语言结构，增强了多语言语音翻译能力，可能提高了数据效率。

排序理由发表了一篇学术论文，详细介绍了多语言语音到语音翻译的新框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Jianjun Zhao · 2026-05-15 15:01

从扁平语言标签到类型学先验：多语言语音到语音翻译的结构化语言条件

Compositional speech-to-speech translation (S2ST) systems built upon speech large language models (SpeechLLMs) have recently shown promising performance. However, existing S2ST systems often either neglect source-language information or encode it through a language-as-label parad…

报道来源 [1]

从扁平语言标签到类型学先验：多语言语音到语音翻译的结构化语言条件

相关实体

相关话题