研究人员在全模态大型语言模型中发现了一个“表征-行动鸿沟”,即模型能够内部识别文本声明与其感官输入之间的矛盾,但无法在其输出中反映出来。使用电影片段创建了一个新的基准 IMAVB 来测试此能力,结果显示当前模型要么接受错误的假设,要么拒绝过多的标准声明。研究表明,这些模型中基础化的瓶颈在于将感知转化为行动,而不是感知本身。 AI
影响 突出了全模态 LLM 基础化中的一个关键鸿沟,表明当前模型难以将感知到的信息转化为可靠的行动。
排序理由 该集群包含一篇学术论文,详细介绍了新的基准和关于 LLM 能力的发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →