PulseAugur
实时 06:54:50
English(EN) Pix2Fact: When Vision Is Not Enough -- Benchmarking Fine-Grained VQA with Web Verification on High-Resolution Real-World Scenes

新的Pix2Fact基准暴露了VLM在真实世界任务中的局限性

引入了一个名为Pix2Fact的新基准,用于评估视觉语言模型(VLM)在需要细粒度视觉理解和外部知识整合的任务中的能力。该基准包含1000张高分辨率图像和由博士级别专家精心设计的问题,对当前最先进的模型构成了挑战。即使是像Gemini 3.1 Pro这样的先进VLM,准确率也仅为51.7%,这凸显了在视觉基础、知识搜索和非结构化信息检索方面的局限性。Pix2Fact旨在推动下一代AI代理的发展,使其能够更好地结合感知与知识。 AI

影响 Pix2Fact基准突显了当前VLM的弱点,推动了能够更好地整合感知和知识检索能力的代理的发展。

排序理由 该集群包含一篇介绍用于评估AI模型的新基准的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yifan Jiang, Cong Zhang, Bofei Zhang, Qiaofeng Zheng, Yifan Yang, Bingzhang Wang, Yew-Soon Ong ·

    Pix2Fact: When Vision Is Not Enough -- Benchmarking Fine-Grained VQA with Web Verification on High-Resolution Real-World Scenes

    arXiv:2602.00593v4 Announce Type: replace-cross Abstract: Despite progress on general tasks, vision-language models (VLMs) still struggle with challenges that demand both fine-grained visual grounding and external knowledge, a synergy overlooked by existing benchmarks that evalua…