PulseAugur
实时 19:15:47
实体 Collider-Bench

Collider-Bench

PulseAugur coverage of Collider-Bench — every cluster mentioning Collider-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-16 product_launch A new benchmark, Collider-Bench, was introduced to test LLM agents on reproducing scientific analyses. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_34230 ·

    大型语言模型代理在科学推理方面遇到困难;Cerebras IPO 挑战 Nvidia

    一项名为 Collider-Bench 的新基准测试已被开发出来,用于评估大型语言模型代理重现研究论文中的科学分析的能力,特别关注大型强子对撞机 (LHC) 数据。目前,大型语言模型代理在这一复杂的科学推理任务上的表现不如人类物理学家,表明仍有很大的改进空间。另外,Cerebras 已提交 IPO 申请,旨在用其晶圆级芯片挑战 Nvidia 在人工智能硬件领域的统治地位。此外,Anthropic 正在修改其 Claude Pro 订阅…