研究人员已经发现了多模态大语言模型在验证图表中呈现的科学声明时,为何不如表格那样有效。通过对三个开源VLMs进行逐层线性探测和注意力分析,他们发现图表中的信息被编码在模型的中间表示中,但未能到达预测层。这种与表格情况不同的断开表明,问题不在于编码视觉数据,而在于有效地将其路由以进行预测。 AI
影响 识别出多模态模型中特定的路由失败问题,可能指导未来架构的改进,以更好地理解视觉数据。
排序理由 学术论文,详细介绍了关于模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →