Anthropic 发布了其 Claude 3.5 Sonnet 模型的更新版本,在编码和工具使用基准测试中取得了显著的进步。该模型在 SWE-bench Verified 编码任务上取得了 49.0% 的成功率,超越了其他公开可用的模型。此外,它在不同领域的 TAU-bench Agentic 工具使用任务上也取得了进展。这些进步以与上一代相同的价格和速度提供,并配备了新的“计算机使用”工具,旨在减少 AI Agent 的集成摩擦。 AI
排序理由 发布了具有基准性能改进和新功能的更新模型。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →