研究人员推出了BareBones,一个旨在测试视觉语言模型(VLMs)几何理解能力的新基准测试。该基准测试使用像素级轮廓来评估VLMs是否能独立于视觉纹理或上下文信息来理解几何结构。对包括GPT-4.1和Gemini在内的26个领先VLMs的评估显示,在移除视觉纹理后,性能出现显著下降,这种现象被称为“纹理偏差断崖”。 AI
影响 突显了当前VLMs在几何推理方面存在的潜在局限性,表明需要具有更好空间理解基础的模型。
排序理由 该集群包含一篇介绍用于评估视觉语言模型的新型基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Aaditya Baranwal
- Claude Sonnet 4.5
- DIS5K
- Gemini
- GPT-4.1
- ImageNet-S
- PASCAL VOC
- ThinObject5K
- WTP-Bench
- LLaVA
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →