English(EN) AI evals are becoming the new compute bottleneck

AI模型评估正成为昂贵的瓶颈，成本已超越训练费用

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 16:45

AI模型评估正变得成本高昂，近期基准测试的成本高达数万美元，并消耗数千个GPU小时。对于本质上更复杂且对设置变化敏感的基于代理的评估而言，这种高成本尤为突出。虽然存在通过子采样降低静态基准测试成本的方法，但这些技术对于基于代理的评估的动态和嘈杂特性效果不佳，从而造成了研发瓶颈。 AI

影响 AI评估成本的不断攀升可能会减缓研发速度，并可能将前沿模型的评估集中在资金充足的组织内部。

排序理由文章讨论了评估AI模型（特别是基于代理的系统）日益增长的成本和计算需求，并引用了具体的基准测试成本和研究论文。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]