本调查系统地回顾了过程奖励模型(PRMs),与传统的基于结果的模型不同,PRMs 在推理步骤或轨迹层面评估和指导大型语言模型(LLMs)。它详细介绍了生成过程数据、构建 PRMs 以及将它们用于强化学习和测试时扩展的方法。该论文涵盖了数学、编码、文本、多模态推理、机器人和代理等不同领域的应用,旨在阐明设计选择并确定未来改进推理对齐的研究方向。 AI
影响 为 LLMs 的基于过程的奖励建模提供了结构化概述,指导了未来在细粒度推理对齐方面的研究。
排序理由 这是一篇关于改进 LLM 对齐的特定技术的调查论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →