PulseAugur
实时 14:23:37
实体 Riemann-Bench

Riemann-Bench

PulseAugur coverage of Riemann-Bench — every cluster mentioning Riemann-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_96160 ·

    新的Riemann-Bench揭示AI在研究级数学方面存在困难

    一项名为Riemann-Bench的新基准测试已被推出,用于评估AI系统在高级、研究级数学方面的能力,超越了竞赛题的范围。该基准由常春藤盟校的数学教授和专家开发,其特点是问题复杂且耗时,即使对人类来说也是如此。初步评估显示,目前最前沿的AI模型在Riemann-Bench上的得分低于10%,这凸显了它们在数学推理能力与人类研究人员相比存在的巨大差距。该基准测试保持私密,以防止数据记忆并确保对AI数学能力的真实评估。