PulseAugur
实时 08:07:09
English(EN) Understanding How MLLMs Describe Artworks Using Token Activation Maps

新方法可视化MLLM对艺术品描述的推理过程

研究人员开发了一种名为Token激活图(TAM)的新方法,用于理解多模态大型语言模型(MLLM)描述艺术品时背后的视觉推理过程。TAM生成热力图,突出显示模型为每个生成的token所使用的具体视觉证据,有助于区分视觉基础和对文本先验的依赖。研究发现,视觉基础的程度因token的语义类别而异,MLLM在艺术家归属方面的准确性高于预测艺术品标题。 AI

影响 为理解和潜在地改进多模态AI模型的视觉基础能力提供了一个新工具。

排序理由 该集群包含一篇详细介绍分析MLLM行为新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法可视化MLLM对艺术品描述的推理过程

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Nicola Fanelli, Pasquale De Marinis, Raffaele Scaringi, Eva Cetinic, Gennaro Vessio, Giovanna Castellano ·

    Understanding How MLLMs Describe Artworks Using Token Activation Maps

    arXiv:2606.27947v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) describe artworks with remarkable fluency, yet the visual reasoning behind their outputs remains opaque. When an MLLM names a style, identifies a subject, or recognizes an iconographic symbol…

  2. arXiv cs.CV TIER_1 English(EN) · Giovanna Castellano ·

    理解多模态大语言模型如何使用Token激活图描述艺术品

    Multimodal Large Language Models (MLLMs) describe artworks with remarkable fluency, yet the visual reasoning behind their outputs remains opaque. When an MLLM names a style, identifies a subject, or recognizes an iconographic symbol, does it ground each claim in the relevant regi…