English(EN) Controllable and Verifiable Process Data Synthesis for Process Reward Models

无监督流程奖励模型减少了对人类监督的需求

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-04 09:36

研究人员开发了一种训练无监督流程奖励模型（uPRMs）的方法，该方法消除了在逐步推理监督中对人类监督的需求。这种新方法使用LLM的下一个词元概率来评估多个推理轨迹中的错误位置。实验表明，uPRMs可以显著提高识别错误步骤的准确性，并在用作强化学习奖励时，其性能与监督PRMs相当。 AI

影响这项研究可能导致更具可扩展性和成本效益的训练大型语言模型的方法，有可能在没有大量人工标注的情况下提高其推理能力。

排序理由该集群包含两篇详细介绍训练AI模型新方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Maria Brbic · 2026-05-11 08:05

无监督过程奖励模型

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them cost…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-04 09:36

面向过程奖励模型的可控且可验证的过程数据合成

Process reward models (PRMs) rely on high-quality process supervision data, yet existing construction methods often provide limited control over error location, error type, and trajectory consistency. We propose a controllable and verifiable framework for synthesizing process sup…