PulseAugur
实时 02:41:02
实体 KnotBench

KnotBench

PulseAugur coverage of KnotBench — every cluster mentioning KnotBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-11 research_milestone Researchers introduced KnotBench, a new benchmark for evaluating vision-language model diagrammatic reasoning capabilities. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_27569 ·

    新的 KnotBench 基准测试揭示了 VLM 在图解推理方面的局限性

    研究人员推出了 KnotBench,这是一个旨在测试视觉语言模型 (VLM) 图解推理能力的新基准测试。该基准测试使用大量的绳结图和评估等价性、移动预测、识别和跨模态基础的任务。当前的领先模型,如 Claude Opus 4.7 和 GPT-5,在许多任务上表现出显著的局限性,通常接近或等于随机猜测的水平,这表明在这些结构的视觉感知和操作理解之间存在差距。