PulseAugur
实时 12:52:09
实体 LiveBench

LiveBench

PulseAugur coverage of LiveBench — every cluster mentioning LiveBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_82836 ·

    Anthropic 的 Fable 5 在 LiveBench 基准测试中落后于 Gemini 3.1

    LiveBench 的一项新基准评估显示,Fable 5 的表现落后于 Gemini 3.1。这些结果引发了对其基准准确性或 Anthropic 评估方法的质疑。Fable 5 是 Anthropic 的一款模型,考虑到其预期能力,此次表现下滑值得注意。