实体 Outcome Reward Models

Outcome Reward Models

PulseAugur coverage of Outcome Reward Models — every cluster mentioning Outcome Reward Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_119488 · Jun 29 · 19:31

新框架GradeSQL提升LLM在文本到SQL任务中的可靠性

研究人员开发了GradeSQL，一个用于提高大型语言模型（LLM）在文本到SQL任务中可靠性的新框架。该框架利用结果奖励模型（ORMs）作为测试时验证的学习语义评分函数。GradeSQL使用自动候选生成和基于执行的标注来训练这些ORMs，无需人工标注。当集成到Best-of-N管道中时，基于ORM的选择在BIRD和Spider基准测试上的性能显著优于传统方法。
TOOL · CL_58783 · May 29 · 04:00

新论文显示 GRPO 强化学习算法等同于过程奖励模型

一项新的研究论文提出，当群组相对策略优化 (GRPO) 强化学习算法与结果奖励模型一起使用时，在数学上等同于过程奖励模型。这种等同性揭示了 GRPO 中可能阻碍探索和利用的一个缺陷。研究人员引入了一种改进方法，lambda-GRPO，该方法解决了这一缺陷，并已被证明可以提高 LLM 在推理任务上的性能并加速训练。
RESEARCH · CL_10096 · Apr 30 · 04:00

Survey details process reward models for fine-grained LLM reasoning alignment

本调查系统地回顾了过程奖励模型（PRMs），与传统的基于结果的模型不同，PRMs 在推理步骤或轨迹层面评估和指导大型语言模型（LLMs）。它详细介绍了生成过程数据、构建 PRMs 以及将它们用于强化学习和测试时扩展的方法。该论文涵盖了数学、编码、文本、多模态推理、机器人和代理等不同领域的应用，旨在阐明设计选择并确定未来改进推理对齐的研究方向。

新框架GradeSQL提升LLM在文本到SQL任务中的可靠性

新论文显示 GRPO 强化学习算法等同于过程奖励模型

Survey details process reward models for fine-grained LLM reasoning alignment