PulseAugur
实时 11:48:44
English(EN) Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs

语音大语言模型接口使用嵌入流形以实现更好的集成

研究人员开发了一种新颖的语音到大语言模型接口,称为 Convex Gate (C-Gate),它将语音表示约束到大语言模型的输入嵌入流形中。这种方法确保了与预训练大语言模型的兼容性,同时保留了连续的表达能力,这与之前丢失副语言信息或允许表示漂移的方法不同。C-Gate 在自动语音识别和情感识别方面表现出强大的联合性能,词错误率提高了高达 48.7%,情感识别准确率与单任务相当。研究表明,嵌入空间中时间分辨轨迹的几何形状,而不是离散的 token 身份,对于冻结大语言模型的多模态集成至关重要。 AI

影响 引入了一种将语音数据集成到大语言模型中的新方法,有可能提高多模态人工智能的能力。

排序理由 这是一篇详细介绍语音到大语言模型集成新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Zhizheng Wu ·

    文本是否就够了?文本作为语音大语言模型的通用信息瓶颈

    Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating continuous acoustic signals into a frozen LLM remains challenging. Existing speech-to-LLM interfaces typically operate at two extremes: either enforcing near-discrete toke…