PulseAugur
实时 22:18:15
实体 AIME2025

AIME2025

PulseAugur coverage of AIME2025 — every cluster mentioning AIME2025 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_11778 ·

    PiCSAR 方法通过概率置信度评分提升 LLM 推理链的准确性

    研究人员推出了一种名为 PiCSAR 的新方法,用于提高大型语言和推理模型的准确性。这种无需训练的方法通过从多个生成选项中选择最佳候选解决方案来增强推理任务的性能。PiCSAR 利用推理过程和最终答案的联合对数似然来评估置信度,在 MATH500 和 AIME2025 等基准测试中取得了显著的提升。