English(EN) Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs

语音大语言模型接口使用嵌入流形以实现更好的集成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 11:38

研究人员开发了一种新颖的语音到大语言模型接口，称为 Convex Gate (C-Gate)，它将语音表示约束到大语言模型的输入嵌入流形中。这种方法确保了与预训练大语言模型的兼容性，同时保留了连续的表达能力，这与之前丢失副语言信息或允许表示漂移的方法不同。C-Gate 在自动语音识别和情感识别方面表现出强大的联合性能，词错误率提高了高达 48.7%，情感识别准确率与单任务相当。研究表明，嵌入空间中时间分辨轨迹的几何形状，而不是离散的 token 身份，对于冻结大语言模型的多模态集成至关重要。 AI

影响引入了一种将语音数据集成到大语言模型中的新方法，有可能提高多模态人工智能的能力。

排序理由这是一篇详细介绍语音到大语言模型集成新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zhizheng Wu · 2026-06-08 11:38

文本是否就够了？文本作为语音大语言模型的通用信息瓶颈

Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating continuous acoustic signals into a frozen LLM remains challenging. Existing speech-to-LLM interfaces typically operate at two extremes: either enforcing near-discrete toke…

报道来源 [1]

文本是否就够了？文本作为语音大语言模型的通用信息瓶颈

相关实体

相关话题