English(EN) Understanding How MLLMs Describe Artworks Using Token Activation Maps

新方法可视化MLLM对艺术品描述的推理过程

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-26 10:42

研究人员开发了一种名为Token激活图（TAM）的新方法，用于理解多模态大型语言模型（MLLM）描述艺术品时背后的视觉推理过程。TAM生成热力图，突出显示模型为每个生成的token所使用的具体视觉证据，有助于区分视觉基础和对文本先验的依赖。研究发现，视觉基础的程度因token的语义类别而异，MLLM在艺术家归属方面的准确性高于预测艺术品标题。 AI

影响为理解和潜在地改进多模态AI模型的视觉基础能力提供了一个新工具。

排序理由该集群包含一篇详细介绍分析MLLM行为新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Nicola Fanelli, Pasquale De Marinis, Raffaele Scaringi, Eva Cetinic, Gennaro Vessio, Giovanna Castellano · 2026-06-29 04:00

Understanding How MLLMs Describe Artworks Using Token Activation Maps

arXiv:2606.27947v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) describe artworks with remarkable fluency, yet the visual reasoning behind their outputs remains opaque. When an MLLM names a style, identifies a subject, or recognizes an iconographic symbol…
arXiv cs.CV TIER_1 English(EN) · Giovanna Castellano · 2026-06-26 10:42

理解多模态大语言模型如何使用Token激活图描述艺术品

Multimodal Large Language Models (MLLMs) describe artworks with remarkable fluency, yet the visual reasoning behind their outputs remains opaque. When an MLLM names a style, identifies a subject, or recognizes an iconographic symbol, does it ground each claim in the relevant regi…

报道来源 [2]

Understanding How MLLMs Describe Artworks Using Token Activation Maps

理解多模态大语言模型如何使用Token激活图描述艺术品

相关实体

相关话题