新算法优化带成本验证的语言模型推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了一种名为ADAP的新算法，用于优化语言模型的推理时间流水线。该方法专为使用廉价奖励信号和更昂贵的验证过程（例如检查数学解决方案或执行代码）的场景而设计。ADAP自适应地增加采样响应和验证的数量，以有效地找到积极示例，在实验中优于固定或难度自适应的基线。 AI

影响优化代码生成和数学推理等复杂语言模型任务的推理效率。

排序理由该集群包含一篇详细介绍语言模型推理新算法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Shaddin Dughmi, Mahdi Haghifam, Yusuf Hakan Kalayci · 2026-06-09 04:00

自适应生成-排序-验证：推理时带有昂贵验证的搜索

arXiv:2605.17609v2 Announce Type: replace Abstract: Many inference-time language-model pipelines combine a cheap reward signal with an expensive verifier, such as exact answer checking in mathematical reasoning or hidden-test execution in code generation. We formalize this settin…