Anthropic 的 Claude Opus 4.8 在 ARC-AGI 3 基准测试中取得了超过 1% 的分数。这是首次有 AI 模型在此项挑战性评估中突破该阈值,标志着一个重要的里程碑。ARC-AGI 基准测试旨在测试 AI 的抽象推理能力,因此这一成就对该领域具有重要意义。 AI
影响 为大型语言模型的抽象推理能力树立了新标杆,可能影响未来的模型开发。
排序理由 新模型版本发布,并取得了基准测试性能。 [lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →