PulseAugur
实时 21:53:49
实体 Outcome Reward Models

Outcome Reward Models

PulseAugur coverage of Outcome Reward Models — every cluster mentioning Outcome Reward Models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_10096 ·

    Survey details process reward models for fine-grained LLM reasoning alignment

    本调查系统地回顾了过程奖励模型(PRMs),与传统的基于结果的模型不同,PRMs 在推理步骤或轨迹层面评估和指导大型语言模型(LLMs)。它详细介绍了生成过程数据、构建 PRMs 以及将它们用于强化学习和测试时扩展的方法。该论文涵盖了数学、编码、文本、多模态推理、机器人和代理等不同领域的应用,旨在阐明设计选择并确定未来改进推理对齐的研究方向。