研究人员开发了一种新颖的语音到大语言模型接口,称为 Convex Gate (C-Gate),它将语音表示约束到大语言模型的输入嵌入流形中。这种方法确保了与预训练大语言模型的兼容性,同时保留了连续的表达能力,这与之前丢失副语言信息或允许表示漂移的方法不同。C-Gate 在自动语音识别和情感识别方面表现出强大的联合性能,词错误率提高了高达 48.7%,情感识别准确率与单任务相当。研究表明,嵌入空间中时间分辨轨迹的几何形状,而不是离散的 token 身份,对于冻结大语言模型的多模态集成至关重要。 AI
影响 引入了一种将语音数据集成到大语言模型中的新方法,有可能提高多模态人工智能的能力。
排序理由 这是一篇详细介绍语音到大语言模型集成新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →