一位 Reddit 用户重新评估了 Anthropic 的 Claude 4.8 系统卡性能图表,怀疑原始的对数刻度掩盖了成本效率低下。该用户使用 50 个随机任务进行了自己的基准测试,发现低努力设置下的 Opus 4.8 在所有努力级别上都优于 Sonnet 4.6,并且成本更低。这表明 Opus 4.8 通常更具成本效益,除非某个任务可以轻松由 Sonnet 4.6 在其最低设置下处理。 AI
影响 用户分析表明 Opus 4.8 可能比之前呈现的更具成本效益,这可能会影响用户采用和成本管理策略。
排序理由 用户生成的分析和对模型性能声明的重新评估,而非直接发布或官方基准测试。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →