一项新的基准测试 ProgramBench 已用于评估 Fable 5,结果表明其性能显著优于 Opus 4.8。基准测试的创建者指出,即使 Fable 5 在某些任务中使用了回退机制至 Opus 4.8,其性能仍是 Opus 4.8 的两倍。一个有趣的观察是,Fable 5 中回退到 Opus 4.8 所消耗的 token 是 Opus 4.8 单独执行类似任务的两倍。 AI
影响 Fable 5 在 ProgramBench 上性能达到 Opus 4.8 的两倍,表明其能力有了显著飞跃,可能给竞争对手带来压力。
排序理由 该集群报告了特定 AI 模型的基准测试结果,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →