研究人员推出了 KnotBench,这是一个旨在测试视觉语言模型 (VLM) 图解推理能力的新基准测试。该基准测试使用大量的绳结图和评估等价性、移动预测、识别和跨模态基础的任务。当前的领先模型,如 Claude Opus 4.7 和 GPT-5,在许多任务上表现出显著的局限性,通常接近或等于随机猜测的水平,这表明在这些结构的视觉感知和操作理解之间存在差距。 AI
影响 凸显了当前 VLM 执行复杂图解推理能力方面的显著局限性,表明需要新的架构或训练方法。
排序理由 该集群描述了一篇介绍用于评估 AI 模型的新颖基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →