Anthropic 于 6 月 9 日发布了其最强大的模型 Claude Fable,就在表达对 AI 安全的担忧几天之后。该新模型在 SWE-Bench Pro 基准测试中取得了 80.0% 的分数,该基准测试专门评估编码代理的准确性。 AI
影响 在编码基准测试中创下新的 SOTA 记录;给 Anthropic 带来回应压力。
排序理由 发布 Frontier-lab 模型并附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →