实体 ProcessBench

ProcessBench

PulseAugur coverage of ProcessBench — every cluster mentioning ProcessBench across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_58890 · May 29 · 04:00

新AI方法增强推理奖励和策略优化

研究人员开发了一种名为隐式前缀值奖励模型（IPVRM）的新方法，以改进AI推理任务的奖励模型训练。IPVRM直接学习序列每个前缀的正确性概率，使训练与推理保持一致，并提高了ProcessBench等基准测试上的步进验证准确性。他们还引入了分布级强化学习（DistRL）来利用这些前缀值进行策略优化，并证明与IPVRM配对时可实现持续的推理改进。
RESEARCH · CL_41780 · May 20 · 05:48

新方法无需微调即可控制AI验证器的严格程度

研究人员开发了一种名为VerifySteer的新方法，用于控制生成式验证器在分步验证中的严格程度。该技术识别出验证段落边界内的一个隐藏信号，该信号指示验证器接受或拒绝某一步的倾向。通过选择性地干预该信号，VerifySteer可以在无需微调的情况下调节验证器的严格程度，为现有方法提供了一种更有效率的替代方案。
RESEARCH · CL_24786 · May 4 · 09:36

无监督流程奖励模型减少了对人类监督的需求

研究人员开发了一种训练无监督流程奖励模型（uPRMs）的方法，该方法消除了在逐步推理监督中对人类监督的需求。这种新方法使用LLM的下一个词元概率来评估多个推理轨迹中的错误位置。实验表明，uPRMs可以显著提高识别错误步骤的准确性，并在用作强化学习奖励时，其性能与监督PRMs相当。
RESEARCH · CL_06752 · Apr 28 · 04:00

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

研究人员开发了新的方法来提高用于对齐大型语言模型（LLM）的奖励模型（RM）的可靠性和可解释性。一种方法引入了因果驱动的干预技术，以在推理时减轻 RM 中的各种偏差，显示出对虚假特征的敏感性降低，而没有性能权衡。另一项开发是“reward-lens”库，它将机制可解释性工具应用于 RM，揭示线性归因并不总是能预测因果打补丁的效果。此外，一种称为时间连贯奖励建模（TCRM）的新方法将 RM 视为价值函数，从而能够进行可解释的 token…

新AI方法增强推理奖励和策略优化

新方法无需微调即可控制AI验证器的严格程度

无监督流程奖励模型减少了对人类监督的需求

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能