研究人员开发了一种名为Token激活图(TAM)的新方法,用于理解多模态大型语言模型(MLLM)描述艺术品时背后的视觉推理过程。TAM生成热力图,突出显示模型为每个生成的token所使用的具体视觉证据,有助于区分视觉基础和对文本先验的依赖。研究发现,视觉基础的程度因token的语义类别而异,MLLM在艺术家归属方面的准确性高于预测艺术品标题。 AI
影响 为理解和潜在地改进多模态AI模型的视觉基础能力提供了一个新工具。
排序理由 该集群包含一篇详细介绍分析MLLM行为新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →