实体 Process Reward Models

Process Reward Models

PulseAugur coverage of Process Reward Models — every cluster mentioning Process Reward Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 12

发布 · 30天

90 天内 0

论文 · 30天

90 天内 12

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

TOOL · CL_139219 · Jul 10 · 07:16

KV-PRM模型将LLM多智能体评分成本降低5000倍

研究人员开发了KV-PRM，一种新颖的过程奖励模型，旨在提高基于大型语言模型（LLM）的多智能体系统的效率。与先前重新编码整个轨迹的基于文本的模型不同，KV-PRM直接利用LLM推理过程中生成的KV缓存。这种方法将计算成本相对于序列长度从二次方显著降低到线性，使其更适合长上下文场景。在MATH和GSM8K等基准测试上的实证结果表明，KV-PRM在性能上与基于文本的模型相当或超越，同时在FLOPs、延迟和内存占用方面提供了显著的降低。
RESEARCH · CL_115286 · Jun 26 · 05:38

新的LCA框架通过可学习信用分配增强LLM推理能力

研究人员引入了一个名为可学习信用分配（LCA）的新框架，以改进结果监督过程奖励模型（PRMs）的训练。这些PRMs旨在通过提供详细反馈来增强大型语言模型（LLMs）的推理能力。LCA解决了PRMs中的信用分配挑战，当仅知道最终答案的正确性时，传统方法难以将最终结果归因于特定的推理步骤。所提出的方法将其形式化为一个多示例学习问题，并利用一种新颖的Softmax-加权求和池化技术，在实验中表现优于现有方法。
RESEARCH · CL_91421 · Jun 15 · 04:00

新研究通过增强的 LLM 推理能力提升 Text-to-SQL 的准确性

arXiv 上发布的三篇新研究论文探讨了 Text-to-SQL 技术的进展，重点在于提高大型语言模型（LLM）将自然语言问题转换为 SQL 查询的准确性和泛化能力。这些论文介绍了 CoTE-SQL、MapleDoctor 和 Reward-SQL 等新框架，它们采用了自我增强推理、错误检测与修复以及执行感知奖励等技术，以处理复杂查询并在 Spider 和 Bird 等基准测试中提升性能。这些方法旨在通过提高 LLM 驱动的 SQL …
TOOL · CL_80056 · Jun 9 · 04:00

新的 PRISM 框架解决了 AI 推理模型中的偏差问题

研究人员发现过程奖励模型（PRM）由于训练数据不平衡而存在显著偏差，导致过度强调看似合理但错误的推理步骤。这种偏差会主动误导 AI 系统，对引导解码和最佳 N 选择等任务产生负面影响。为了解决这个问题，开发了一个名为 PRISM 的新框架，它使用对比学习和困难负例来改进步骤级建模，而无需额外的人工标注，从而显著减少了假阳性并提高了准确性。
TOOL · CL_79720 · Jun 9 · 04:00

AI多模态推理通过最差维度优化得到改进

研究人员开发了一种名为最差维度优化（Worst Dimension Optimization）的新方法，以改进AI系统的多模态推理能力。该技术通过关注最具挑战性的方面，解决了当前奖励模型可能忽略特定推理维度中失败的问题。通过优化“最差维度”，系统旨在确保在各种约束下（如视觉基础和逻辑一致性）进行更鲁棒和有效的推理。
RESEARCH · CL_77162 · Jun 5 · 08:17

StainFlow通过新颖的奖励模型改进GUI智能体训练

研究人员引入了StainFlow，这是一种新颖的过程奖励模型，旨在增强GUI智能体的训练。该方法通过提供更精细的训练信号来解决强化学习中反馈稀疏的问题。StainFlow利用实体污点追踪来客观地分离任务阶段，并动态链接局部证据以提高关键节点验证的准确性。
TOOL · CL_58783 · May 29 · 04:00

新论文显示 GRPO 强化学习算法等同于过程奖励模型

一项新的研究论文提出，当群组相对策略优化 (GRPO) 强化学习算法与结果奖励模型一起使用时，在数学上等同于过程奖励模型。这种等同性揭示了 GRPO 中可能阻碍探索和利用的一个缺陷。研究人员引入了一种改进方法，lambda-GRPO，该方法解决了这一缺陷，并已被证明可以提高 LLM 在推理任务上的性能并加速训练。
TOOL · CL_36565 · May 15 · 01:57

新的分布过程奖励模型预测奖励可靠性以获得更好的推理

研究人员开发了BetaPRM，一种新的分布过程奖励模型，它不仅预测推理步骤的成功概率，还预测该预测的可靠性。这种方法使用Beta信念来解释观察到的续写，提供了比输出单一奖励分数的传统PRM更细致的信号。学习到的可靠性允许下游应用程序区分可信和不确定的奖励，从而实现更有效的计算分配。
TOOL · CL_18581 · May 6 · 04:00

AI研究人员为流程奖励模型开发可控数据合成方法

研究人员开发了一个新的框架，用于创建针对流程奖励模型（PRMs）定制的合成流程监督数据。该方法允许对推理链进行可控的错误注入，确保错误是局部化的，并且数据保持一致。合成数据在逻辑推理基准的重新排序任务上显示出改进，并显示出转移到数学推理任务的潜力。
TOOL · CL_15917 · May 5 · 04:00

新的GR-Ben基准评估AI的通用推理和错误检测能力

研究人员推出了一款名为GR-Ben的新基准，旨在评估过程奖励模型（PRMs）在超越纯粹数学推理任务的更广泛推理任务中的错误检测能力。该基准涵盖科学和逻辑推理领域，旨在解决现有PRMs主要关注数学错误的问题。对22个模型的实验表明，当前的PRMs和大型语言模型（LLMs）在检测非数学领域的错误方面明显较弱，其中PRMs在基于知识的错误方面存在困难，而LLMs在计算错误方面存在困难。
RESEARCH · CL_24786 · May 4 · 09:36

无监督流程奖励模型减少了对人类监督的需求

研究人员开发了一种训练无监督流程奖励模型（uPRMs）的方法，该方法消除了在逐步推理监督中对人类监督的需求。这种新方法使用LLM的下一个词元概率来评估多个推理轨迹中的错误位置。实验表明，uPRMs可以显著提高识别错误步骤的准确性，并在用作强化学习奖励时，其性能与监督PRMs相当。
RESEARCH · CL_10096 · Apr 30 · 04:00

Survey details process reward models for fine-grained LLM reasoning alignment

本调查系统地回顾了过程奖励模型（PRMs），与传统的基于结果的模型不同，PRMs 在推理步骤或轨迹层面评估和指导大型语言模型（LLMs）。它详细介绍了生成过程数据、构建 PRMs 以及将它们用于强化学习和测试时扩展的方法。该论文涵盖了数学、编码、文本、多模态推理、机器人和代理等不同领域的应用，旨在阐明设计选择并确定未来改进推理对齐的研究方向。

KV-PRM模型将LLM多智能体评分成本降低5000倍

新的LCA框架通过可学习信用分配增强LLM推理能力

新研究通过增强的 LLM 推理能力提升 Text-to-SQL 的准确性

新的 PRISM 框架解决了 AI 推理模型中的偏差问题

AI多模态推理通过最差维度优化得到改进

StainFlow通过新颖的奖励模型改进GUI智能体训练

新论文显示 GRPO 强化学习算法等同于过程奖励模型

新的分布过程奖励模型预测奖励可靠性以获得更好的推理

AI研究人员为流程奖励模型开发可控数据合成方法

新的GR-Ben基准评估AI的通用推理和错误检测能力

无监督流程奖励模型减少了对人类监督的需求

Survey details process reward models for fine-grained LLM reasoning alignment