一项新的分析表明,GPT-5.4 存在严重的“过度编辑”问题,其输出在功能上是正确的,但在结构上比必要时与原始代码的差异更大。与 Claude Opus 4.6 相比,这种过度编辑导致修复的代币成本高出 6.5 倍,而 pass@1 正确性相似。使用更大的模型也无法解决此问题,因为推理模型似乎会因预算增加而加剧问题。作者建议测量并规避这种“过度编辑率”,将其作为 AI 代理的关键成本节约指标。 AI
影响 强调了 LLM 代码编辑中潜在的成本效率低下问题,并提出了新的指标和路由策略以优化成本。
排序理由 该条目分析了现有模型的行为并提出了一个新指标,而不是宣布新版本或研究发现。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →