PulseAugur
实时 08:28:00
English(EN) Over-editing is a token tax: GPT-5.4 ships 6.5x more diff per fix than Claude Opus 4.6, and your bill notices

GPT-5.4 过度编辑代码,成本是 Claude Opus 4.6 的 6.5 倍

一项新的分析表明,GPT-5.4 存在严重的“过度编辑”问题,其输出在功能上是正确的,但在结构上比必要时与原始代码的差异更大。与 Claude Opus 4.6 相比,这种过度编辑导致修复的代币成本高出 6.5 倍,而 pass@1 正确性相似。使用更大的模型也无法解决此问题,因为推理模型似乎会因预算增加而加剧问题。作者建议测量并规避这种“过度编辑率”,将其作为 AI 代理的关键成本节约指标。 AI

影响 强调了 LLM 代码编辑中潜在的成本效率低下问题,并提出了新的指标和路由策略以优化成本。

排序理由 该条目分析了现有模型的行为并提出了一个新指标,而不是宣布新版本或研究发现。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · John Medina ·

    过度编辑是令牌税:GPT-5.4 的每次修复产生的差异是 Claude Opus 4.6 的 6.5 倍,您的账单会注意到

    <p>A model is over-editing if its output is functionally correct but structurally diverges from the original code more than the minimal fix requires. Left unconstrained, the extended reasoning gives models more room to 'improve' code that doesn't need improving.</p> <p>GPT-5.4 av…