PulseAugur
实时 04:16:12
实体 TerminalBench 2.1

TerminalBench 2.1

PulseAugur coverage of TerminalBench 2.1 — every cluster mentioning TerminalBench 2.1 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. SIGNIFICANT · CL_112747 ·

    OpenAI 预览 GPT-5.6 系列,Sol Ultra 在 TerminalBench 上超越 Mythos 5

    OpenAI 预览了其新的 GPT-5.6 模型系列,其中包括 Sol Ultra、Sol、Terra 和 Luna。GPT-5.6 Sol Ultra 模型在 TerminalBench 2.1 基准测试中取得了 91.9% 的分数,超过了 Anthropic 的 Claude Mythos 5,后者的得分为 88.0%。Terra 模型提供了与 GPT-5.5 相当的性能,但成本更低,而 Luna 被定位为最具经济效益的选择。新系…