PulseAugur
实时 07:16:47
实体 miniCTX

miniCTX

PulseAugur coverage of miniCTX — every cluster mentioning miniCTX across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_74387 ·

    LLM在Lean 4中形式化数学证明的评估

    一篇新的研究论文评估了各种大型语言模型(LLM)在使用Lean 4定理证明器生成形式化数学证明方面的性能。该研究在miniF2F和miniCTX数据集的子集上采用了pass@k和refine@k指标。Gemini 3.1 Pro和Claude Opus 4.7表现出最高的成功率,其中Gemini在miniF2F上达到92%,Opus在miniCTX上达到86%。在成本效益方面,NVIDIA Nemotron 3 Super和GPT-O…