实体 Controllable and Verifiable Process Data Synthesis for Process Reward Models

Controllable and Verifiable Process Data Synthesis for Process Reward Models

PulseAugur coverage of Controllable and Verifiable Process Data Synthesis for Process Reward Models — every cluster mentioning Controllable and Verifiable Process Data Synthesis for Process Reward Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_24786 · May 4 · 09:36

无监督流程奖励模型减少了对人类监督的需求

研究人员开发了一种训练无监督流程奖励模型（uPRMs）的方法，该方法消除了在逐步推理监督中对人类监督的需求。这种新方法使用LLM的下一个词元概率来评估多个推理轨迹中的错误位置。实验表明，uPRMs可以显著提高识别错误步骤的准确性，并在用作强化学习奖励时，其性能与监督PRMs相当。

无监督流程奖励模型减少了对人类监督的需求