English(EN) Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs?

语音翻译预训练提升语音大语言模型性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 06:15

研究人员探索了一种新颖的方法，通过纳入语音翻译目标来预训练语音大语言模型的语音编码器。该方法旨在弥合特定语言编码器表示与大语言模型语言无关空间之间的差距。通过要求模型处理跨语言任务，它学习到更鲁棒、语言无关的表示，从而改善与大语言模型的集成并提高各种下游语音大语言模型任务的性能。 AI

影响这项研究通过提高语音大语言模型处理和理解不同语言环境中口语的能力，有望使其更加强大和通用。

排序理由该集群包含一篇学术论文，详细介绍了预训练语音大语言模型语音编码器的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yusuke Fujita · 2026-06-24 06:15

Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs?

Connecting a pre-trained speech encoder to a Large Language Model (LLM) is the standard architecture for building Speech LLMs. However, a structural misalignment exists between the encoder and the LLM. Unlike encoders based on automatic speech recognition, which often produce rep…