研究人员展示了 Anthropic 的 Claude Opus 4.6,通过专门用于 Rocq 证明助手的工具进行增强,成功证明了 2025 年 Putnam 数学竞赛中的 12 道题中的 10 道。该实验采用了通过模型上下文协议 (MCP) 工具实现的“先编译,交互式回退”策略,这些工具是通过分析先前的证明助手实验而开发的。该 AI 代理在隔离的虚拟机上自主运行,在 17.7 小时的计算时间内部署了 141 个子代理,并处理了约 19 亿个 token。 AI
影响 展示了 AI 在复杂数学问题上的高级推理能力,可能加速 AI 在形式验证和科学发现中的作用。
排序理由 学术论文,详细介绍了在基准测试中使用 AI 模型进行的实验。[lever_c_demoted from research: ic=1 ai=1.0]
- Anthropic
- Claude Opus 4.6
- Guillaume Baudart
- Model Context Protocol (MCP)
- Putnam Mathematical Competition
- Rocq
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →