PulseAugur
实时 12:09:11
实体 SorryDB

SorryDB

PulseAugur coverage of SorryDB — every cluster mentioning SorryDB across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93425 ·

    新的AI基准SorryDB测试现实世界数学形式化

    研究人员推出了SorryDB,这是一个新颖的基准,旨在评估AI在Lean数学证明助手完成现实世界形式化任务的能力。与静态基准不同,SorryDB会动态更新GitHub项目中的开放任务,目标是生产更符合社区需求并能处理复杂依赖关系的AI工具。初步评估表明,尽管使用Gemini Flash的代理方法表现最佳,但它并不严格优于其他大型语言模型、专业证明器或精选的Lean策略,这表明当前形式数学的AI方法之间存在互补性。