引入了一个名为Pix2Fact的新基准,用于评估视觉语言模型(VLM)在需要细粒度视觉理解和外部知识整合的任务中的能力。该基准包含1000张高分辨率图像和由博士级别专家精心设计的问题,对当前最先进的模型构成了挑战。即使是像Gemini 3.1 Pro这样的先进VLM,准确率也仅为51.7%,这凸显了在视觉基础、知识搜索和非结构化信息检索方面的局限性。Pix2Fact旨在推动下一代AI代理的发展,使其能够更好地结合感知与知识。 AI
影响 Pix2Fact基准突显了当前VLM的弱点,推动了能够更好地整合感知和知识检索能力的代理的发展。
排序理由 该集群包含一篇介绍用于评估AI模型的新基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →