一个用户创建的基准测试 ObviousBench 揭示了 Anthropic 的 Opus 4.7 模型与其前身 Opus 4.6 相比存在性能回归。该基准测试旨在测试模型在简单推理错误方面的表现,结果显示 Opus 4.7 需要显著更高的配置设置才能获得比 Opus 4.6 更低的分数。创建者认为 Opus 4.7 的过度自信和减少的推理 token 使用量可能是导致这一明显性能倒退的原因。 AI
影响 表明模型版本控制和性能一致性可能存在问题,促使进一步调查 Anthropic 的模型开发。
排序理由 用户创建的基准测试揭示了特定模型版本的性能回归。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →