一位用户对 Claude Opus 4.6 和 4.8 进行了非科学性比较,并使用 Codex 5.5 作为裁判。结果表明,尽管 Claude 4.8 速度较慢且更冗长,但在理解代码库和检测风险方面总体表现更好。作为裁判的 Codex 5.5 也反映出,虽然 Claude 4.8 是一个更彻底的调查者,但它自己的输出会更简洁高效。 AI
影响 表明模型在理解和风险检测方面有渐进式改进,但突出了冗长和效率方面的权衡。
排序理由 用户进行的基准测试,比较了模型的两个版本。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →