English(EN) BareBones: Benchmarking Zero-Shot Geometric Comprehension in VLMs

BareBones基准测试揭示视觉语言模型存在纹理偏差断崖

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员推出了BareBones，一个旨在测试视觉语言模型（VLMs）几何理解能力的新基准测试。该基准测试使用像素级轮廓来评估VLMs是否能独立于视觉纹理或上下文信息来理解几何结构。对包括GPT-4.1和Gemini在内的26个领先VLMs的评估显示，在移除视觉纹理后，性能出现显著下降，这种现象被称为“纹理偏差断崖”。 AI

影响突显了当前VLMs在几何推理方面存在的潜在局限性，表明需要具有更好空间理解基础的模型。

排序理由该集群包含一篇介绍用于评估视觉语言模型的新型基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Aaditya Baranwal, Vishal Yadav, Abhishek Rajora · 2026-05-05 04:00

BareBones: Benchmarking Zero-Shot Geometric Comprehension in VLMs

arXiv:2604.10528v3 Announce Type: replace Abstract: While Vision-Language Models (VLMs) demonstrate remarkable zero-shot recognition capabilities across a diverse spectrum of multimodal tasks, it yet remains an open question whether these architectures genuinely comprehend geomet…

报道来源 [1]

BareBones: Benchmarking Zero-Shot Geometric Comprehension in VLMs

相关实体

相关话题