一篇新研究论文介绍了一种名为“Ill-Posed by Design”的新颖方法,用于评估视觉语言模型(VLMs)如何利用证据。该研究提出使用单目度量对象大小估计作为一项不适定任务,迫使模型依赖各种不完美的线索,如类别先验、外观和上下文。研究人员组建了一个名为Metric VQA的数据集,并测试了12个开源权重VLMs,发现即使是最大的模型在真实场景中的表现也比仅文本的LLM差。分析显示,虽然目标身份至关重要,但当前VLMs在经过LoRA微调后,仍然很大程度上忽略了全局场景几何。 AI
影响 这项研究突显了当前VLM推理和证据利用方面的局限性,表明需要改进架构和训练策略以实现复杂的场景理解。
排序理由 研究论文,详细介绍了一种新的VLM评估方法。
- arXiv
- Hugging Face
- InternVL3.5-241B
- LoRA
- Metric VQA
- Objectron
- Qwen3.5-397B
- Qwen3-VL-235B
- Vision--Language Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →