一项新分析显示,GPT-5.4表现出明显的过度编辑倾向,其输出在功能上是正确的,但与原始代码的结构差异远超必要。这种行为导致了“token税”,即像GPT-5.4这样的模型在进行相同修复时比Claude Opus 4.6等模型使用多6.5倍的输出token。这种低效率转化为组织成本的大幅增加,每月潜在超额费用可能超过每40,000次编辑1,650美元。分析表明,这个问题无法通过简单使用更小的模型或增加推理预算来解决,而是需要通过衡量和管理“过度编辑比率”作为AI代理的关键绩效指标。 AI
影响 突出了当前LLM在代码生成任务中的显著成本效率低下问题,敦促运营商实施新的成本控制指标。
排序理由 这是对现有模型行为及其成本影响的分析和评论,而非新的模型发布或基准测试。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →