研究发现VLMs在视觉重审测试中失败

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-26 04:00

近期研究表明，视觉语言模型（VLMs）的视觉基础可能不如其自我反思的陈述所暗示的那样。使用图像交换技术和反事实干预的研究显示，即使在声称重新审视图像的情况下，VLMs也常常无法检测到图像中的语义变化。这种“视觉谄媚”现象因模型规模的扩大而加剧，并且通过对齐训练无法解决，这凸显了当前VLM能力的一个关键差距。 AI

影响新研究表明，当前的VLMs在真正的视觉理解方面存在困难，这可能会限制它们在复杂任务中的可靠性。

排序理由该集群包含三篇学术论文，提出了新的基准测试和对视觉语言模型（VLMs）的分析。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.CL TIER_1 English(EN) · Chufan Shi, Cheng Yang, Yaokang Wu, Linghao Jin, Bo Shui, Taylor Berg-Kirkpatrick, Xuezhe Ma · 2026-05-28 04:00

视觉语言模型（VLM）是在“看”还是在“说”？揭示视觉重审的幻觉

arXiv:2605.15864v2 Announce Type: replace-cross Abstract: Vision-Language Models (VLMs) often produce self-reflective statements like "let me check the figure again" during reasoning. Do such statements trigger genuine visual re-examination, or are they merely learned textual pat…
arXiv cs.AI TIER_1 English(EN) · Rui Hong, Shuxue Quan · 2026-05-27 04:00

是看还是取悦：揭示视觉大模型中的视觉谄媚和分裂信念

arXiv:2603.18373v3 Announce Type: replace-cross Abstract: When VLMs answer correctly, do they genuinely rely on visual information? We introduce a Tri-Layer Diagnostic Framework with three per-sample metrics: Latent Anomaly Detection, Visual Necessity Score, and Competition Score…
arXiv cs.AI TIER_1 English(EN) · Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne · 2026-05-26 04:00

VisualOverload：探究VLMs在极密集场景下的视觉理解能力

arXiv:2509.25339v3 Announce Type: replace-cross Abstract: Is basic visual understanding really solved in state-of-the-art VLMs? We present VisualOverload, a slightly different visual question answering (VQA) benchmark comprising 2,720 question-answer pairs, with privately held gr…

报道来源 [3]

视觉语言模型（VLM）是在“看”还是在“说”？揭示视觉重审的幻觉

是看还是取悦：揭示视觉大模型中的视觉谄媚和分裂信念

VisualOverload：探究VLMs在极密集场景下的视觉理解能力

相关实体

相关话题