English(EN) Pix2Fact: When Vision Is Not Enough -- Benchmarking Fine-Grained VQA with Web Verification on High-Resolution Real-World Scenes

新的Pix2Fact基准暴露了VLM在真实世界任务中的局限性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-15 04:00

引入了一个名为Pix2Fact的新基准，用于评估视觉语言模型（VLM）在需要细粒度视觉理解和外部知识整合的任务中的能力。该基准包含1000张高分辨率图像和由博士级别专家精心设计的问题，对当前最先进的模型构成了挑战。即使是像Gemini 3.1 Pro这样的先进VLM，准确率也仅为51.7%，这凸显了在视觉基础、知识搜索和非结构化信息检索方面的局限性。Pix2Fact旨在推动下一代AI代理的发展，使其能够更好地结合感知与知识。 AI

影响 Pix2Fact基准突显了当前VLM的弱点，推动了能够更好地整合感知和知识检索能力的代理的发展。

排序理由该集群包含一篇介绍用于评估AI模型的新基准的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yifan Jiang, Cong Zhang, Bofei Zhang, Qiaofeng Zheng, Yifan Yang, Bingzhang Wang, Yew-Soon Ong · 2026-06-15 04:00

Pix2Fact: When Vision Is Not Enough -- Benchmarking Fine-Grained VQA with Web Verification on High-Resolution Real-World Scenes

arXiv:2602.00593v4 Announce Type: replace-cross Abstract: Despite progress on general tasks, vision-language models (VLMs) still struggle with challenges that demand both fine-grained visual grounding and external knowledge, a synergy overlooked by existing benchmarks that evalua…

报道来源 [1]

Pix2Fact: When Vision Is Not Enough -- Benchmarking Fine-Grained VQA with Web Verification on High-Resolution Real-World Scenes

相关实体

相关话题