AI模型评估正变得成本高昂,近期基准测试的成本高达数万美元,并消耗数千个GPU小时。对于本质上更复杂且对设置变化敏感的基于代理的评估而言,这种高成本尤为突出。虽然存在通过子采样降低静态基准测试成本的方法,但这些技术对于基于代理的评估的动态和嘈杂特性效果不佳,从而造成了研发瓶颈。 AI
影响 AI评估成本的不断攀升可能会减缓研发速度,并可能将前沿模型的评估集中在资金充足的组织内部。
排序理由 文章讨论了评估AI模型(特别是基于代理的系统)日益增长的成本和计算需求,并引用了具体的基准测试成本和研究论文。
- AI21
- BLOOM
- EleutherAI
- Exgentic
- Granite-13B
- Holistic Agent Leaderboard
- Hugging Face
- IBM Research
- LM Evaluation Harness
- MMLU
- OpenAI
- Pythia
- Stanford
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →