ENTITY Outcome Reward Models

Outcome Reward Models

PulseAugur coverage of Outcome Reward Models — every cluster mentioning Outcome Reward Models across labs, papers, and developer communities, ranked by signal.

Show in brief

Total · 30d

2 over 90d

Releases · 30d

0 over 90d

Papers · 30d

2 over 90d

TIER MIX · 90D

TOPICS

RECENT · PAGE 1/1 · 2 TOTAL

TOOL · CL_58783 · May 29 · 04:00

GRPO RL Algorithm Equivalent to Process Reward Model, New Paper Shows

A new research paper proposes that the Group Relative Policy Optimization (GRPO) reinforcement learning algorithm, when used with outcome reward models, is mathematically equivalent to a process reward model. This equiv…
RESEARCH · CL_10096 · Apr 30 · 04:00

Survey details process reward models for fine-grained LLM reasoning alignment

This survey paper systematically reviews Process Reward Models (PRMs), which evaluate and guide Large Language Models (LLMs) at the reasoning step or trajectory level, unlike traditional outcome-based models. It details…

GRPO RL Algorithm Equivalent to Process Reward Model, New Paper Shows

Survey details process reward models for fine-grained LLM reasoning alignment