实体 FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

PulseAugur coverage of FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI — every cluster mentioning FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

论文 2
产品 2
模型发布 1

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_22521 · May 7 · 17:56

AI 联合数学家通过代理式支持加速数学家研究

研究人员开发了一个 AI 联合数学家系统，旨在协助数学家进行研究工作流程。该系统为构思、文献综述、计算探索和定理证明等任务提供全面支持。它旨在通过管理不确定性、优化用户意图和跟踪假设来模拟人类协作过程，最终加速数学发现。
FRONTIER RELEASE · CL_02231 · Aug 7 · 00:01

OpenAI 的 GPT-5.2 推动科学与数学发展，评估显示灾难性风险较低

OpenAI 发布了 GPT-5.2，一款在数学和科学推理方面取得显著进步的新模型。该模型在 GPQA Diamond 和 FrontierMath 等基准测试中取得了高分，表明其通用推理和抽象能力有所提高。OpenAI 正在探索 GPT-5.2 如何通过协助研究人员进行证明生成、文献综述和复杂计算等工作来加速科学发现，同时强调人类监督和验证的持续重要性。

AI 联合数学家通过代理式支持加速数学家研究

OpenAI 的 GPT-5.2 推动科学与数学发展，评估显示灾难性风险较低