Process Reward Models
PulseAugur coverage of Process Reward Models — every cluster mentioning Process Reward Models across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
新的分布过程奖励模型预测奖励可靠性以获得更好的推理
研究人员开发了BetaPRM,一种新的分布过程奖励模型,它不仅预测推理步骤的成功概率,还预测该预测的可靠性。这种方法使用Beta信念来解释观察到的续写,提供了比输出单一奖励分数的传统PRM更细致的信号。学习到的可靠性允许下游应用程序区分可信和不确定的奖励,从而实现更有效的计算分配。
-
AI研究人员为流程奖励模型开发可控数据合成方法
研究人员开发了一个新的框架,用于创建针对流程奖励模型(PRMs)定制的合成流程监督数据。该方法允许对推理链进行可控的错误注入,确保错误是局部化的,并且数据保持一致。合成数据在逻辑推理基准的重新排序任务上显示出改进,并显示出转移到数学推理任务的潜力。
-
新的GR-Ben基准评估AI的通用推理和错误检测能力
研究人员推出了一款名为GR-Ben的新基准,旨在评估过程奖励模型(PRMs)在超越纯粹数学推理任务的更广泛推理任务中的错误检测能力。该基准涵盖科学和逻辑推理领域,旨在解决现有PRMs主要关注数学错误的问题。对22个模型的实验表明,当前的PRMs和大型语言模型(LLMs)在检测非数学领域的错误方面明显较弱,其中PRMs在基于知识的错误方面存在困难,而LLMs在计算错误方面存在困难。
-
无监督流程奖励模型减少了对人类监督的需求
研究人员开发了一种训练无监督流程奖励模型(uPRMs)的方法,该方法消除了在逐步推理监督中对人类监督的需求。这种新方法使用LLM的下一个词元概率来评估多个推理轨迹中的错误位置。实验表明,uPRMs可以显著提高识别错误步骤的准确性,并在用作强化学习奖励时,其性能与监督PRMs相当。
-
Survey details process reward models for fine-grained LLM reasoning alignment
本调查系统地回顾了过程奖励模型(PRMs),与传统的基于结果的模型不同,PRMs 在推理步骤或轨迹层面评估和指导大型语言模型(LLMs)。它详细介绍了生成过程数据、构建 PRMs 以及将它们用于强化学习和测试时扩展的方法。该论文涵盖了数学、编码、文本、多模态推理、机器人和代理等不同领域的应用,旨在阐明设计选择并确定未来改进推理对齐的研究方向。