实体 KnotBench

KnotBench

PulseAugur coverage of KnotBench — every cluster mentioning KnotBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

时间线

2026-05-11 research_milestone Researchers introduced KnotBench, a new benchmark for evaluating vision-language model diagrammatic reasoning capabilities. 来源

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_27569 · May 11 · 02:44

新的 KnotBench 基准测试揭示了 VLM 在图解推理方面的局限性

研究人员推出了 KnotBench，这是一个旨在测试视觉语言模型 (VLM) 图解推理能力的新基准测试。该基准测试使用大量的绳结图和评估等价性、移动预测、识别和跨模态基础的任务。当前的领先模型，如 Claude Opus 4.7 和 GPT-5，在许多任务上表现出显著的局限性，通常接近或等于随机猜测的水平，这表明在这些结构的视觉感知和操作理解之间存在差距。