PulseAugur
实时 05:28:36
实体 Cong Zhang

Cong Zhang

PulseAugur coverage of Cong Zhang — every cluster mentioning Cong Zhang across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_91485 ·

    新的Pix2Fact基准暴露了VLM在真实世界任务中的局限性

    引入了一个名为Pix2Fact的新基准,用于评估视觉语言模型(VLM)在需要细粒度视觉理解和外部知识整合的任务中的能力。该基准包含1000张高分辨率图像和由博士级别专家精心设计的问题,对当前最先进的模型构成了挑战。即使是像Gemini 3.1 Pro这样的先进VLM,准确率也仅为51.7%,这凸显了在视觉基础、知识搜索和非结构化信息检索方面的局限性。Pix2Fact旨在推动下一代AI代理的发展,使其能够更好地结合感知与知识。