研究人员开发了 SciCrafter,一个在 Minecraft 中用于测试 AI 代理弥合科学发现与实际应用之间鸿沟能力的新基准。该基准使用参数化红石电路任务,要求代理发现并应用因果规则来实现特定的照明模式。对 GPT-5.2、Gemini-3-Pro 和 Claude-Opus-4.5 等领先模型的评估显示,它们的成功率在 26% 左右停滞不前,这凸显了在识别知识差距方面的局限性,而不仅仅是应用现有知识。 AI
影响 识别出 AI 代理开发中的一个新瓶颈,将重点从解决问题转移到制定问题。
排序理由 介绍 AI 代理能力新基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →