English(EN) Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination

研究发现：视觉语言模型在被提示时无法重审图像

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-15 11:31

研究人员开发了一个名为VisualSwap的新框架，用于测试视觉语言模型（VLMs）在声称重审图像时是否真的进行了重审。他们使用VS-Bench数据集在Qwen3-VL和Kimi-VL等模型上进行的实验表明，这些模型即使在图像视觉相似的情况下，也经常无法检测到图像中的语义变化。这表明VLMs经常在没有实际执行视觉重审的情况下生成关于视觉重审的文本，而为更复杂推理设计的模型则加剧了这种倾向。 AI

影响挑战了当前VLMs的视觉理解能力，表明需要超越文本线索的改进的接地机制。

排序理由学术论文，介绍了一个用于评估VLM能力的新框架和数据集。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xuezhe Ma · 2026-05-15 11:31

视觉语言模型（VLM）是在“看”还是在“说”？揭示视觉再审视的幻觉

Vision-Language Models (VLMs) often produce self-reflective statements like "let me check the figure again" during reasoning. Do such statements trigger genuine visual re-examination, or are they merely learned textual patterns? We investigate this via VisualSwap, an image-swap p…

报道来源 [1]

视觉语言模型（VLM）是在“看”还是在“说”？揭示视觉再审视的幻觉

相关实体

相关话题