English(EN) CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models

新框架揭示视觉语言模型中的计数偏差

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 04:00

研究人员开发了CounterCount，一个旨在诊断视觉语言模型（VLMs）中计数偏差的新框架。该框架使用成对的事实图像和反事实图像来测试当物体数量与典型知识不同时，VLMs是依赖视觉证据还是学习到的先验知识。评估显示，当前的VLMs在事实图像上表现良好，但在反事实变化方面遇到困难，这表明即使视觉证据与之相矛盾，它们也依赖于物体级别的先验知识。CounterCount还表明，模型对计数相关的视觉标记的注意力权重不足，并提出了一种注意力调制策略来提高准确性。 AI

影响揭示了VLMs中由先验驱动的计数失败，指导了未来能更好地整合视觉证据的模型的开发。

排序理由该集群包含一篇详细介绍用于评估AI模型的新诊断框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Bernard Ghanem · 2026-05-18 04:00

CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models

Vision-Language Models (VLMs) excel at multimodal reasoning, yet it remains unclear whether their answers are grounded in visual evidence or driven by learned language and world priors. Counting provides a precise testbed: when visual evidence conflicts with canonical object know…

报道来源 [1]

CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models

相关实体

相关话题