English(EN) Fable 5 below even Gemini 3.1 on Livebench

Anthropic 的 Fable 5 在 LiveBench 基准测试中落后于 Gemini 3.1

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 06:38

LiveBench 的一项新基准评估显示，Fable 5 的表现落后于 Gemini 3.1。这些结果引发了对其基准准确性或 Anthropic 评估方法的质疑。Fable 5 是 Anthropic 的一款模型，考虑到其预期能力，此次表现下滑值得注意。 AI

影响引发了对模型性能和基准有效性的质疑，可能影响未来的模型开发和评估策略。

排序理由该集群报告了 AI 模型的一项基准测试结果，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/singularity TIER_2 English(EN) · /u/MohMayaTyagi · 2026-06-10 06:38

Fable 5 below even Gemini 3.1 on Livebench

<table> <tr><td> <a href="https://www.reddit.com/r/singularity/comments/1u1ubrg/fable_5_below_even_gemini_31_on_livebench/"> <img alt="Fable 5 below even Gemini 3.1 on Livebench" src="https://preview.redd.it/okqij9bihe6h1.png?width=640&crop=smart&auto=webp&s=f4dd61cf3…