来自 UC Berkeley 的一项新基准测试 ALE benchmark,揭示了 55 个不同行业中各种 AI 模型之间显著的成本和运行时长差异。该基准测试强调,定制的 harness 可以超越 Codex 等商业模型,并且像 Anthropic 的 Claude Opus 4.8 这样的模型在相似结果下比以前的版本慢得多且成本更高。研究结果表明,AI 市场高度不稳定且未优化,用户需要直接进行基准测试,以确定针对其特定工作负载最具成本效益和效率的模型。 AI
影响 突出了当前 AI 模型中极端的成本和运行时长效率低下问题,需要用户驱动的基准测试来实现最佳工作负载性能。
排序理由 该集群报告了评估各行业 AI 模型的新学术基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
- ALE benchmark
- Claude Code
- Codex
- Composer 2.5
- Cursor CLI
- Gemini 3.1 Pro
- GPT 5.5 High
- Grok 4.3
- Mimo v2.5
- Opus 4.7
- Opus 4.8
- Qwen 3.7 Max
- University of California, Berkeley
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →