Anthropic 发布了 Claude Opus 4.8,这是其旗舰 AI 模型的更新版本,特别强调“诚实”和改进的校准。据报道,这一迭代产生静默代码缺陷的可能性降低了四倍,并提供了更明确的不确定性标记,这对于使用自主编码代理的开发人员来说是一个显著的进步。此次发布还包括更快、更便宜的“快速模式”,并在 SWE-Bench Pro 等基准测试中取得进展,表明 Anthropic 的前沿模型正在持续快速的开发周期中。 AI
影响 通过提高可靠性和减少静默错误,加速了自主编码代理的采用。
排序理由 来自前沿实验室(Anthropic)的新模型发布,包含具体的版本号和性能细节。
- Anthropic
- Claude Opus 4.7
- Claude Opus 4.8
- Cloudflare
- GitLab
- Legal Agent Benchmark
- Online-Mind2Web
- Super-Agent
- SWE-Bench Pro
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →