ENTITY RewardBench-2

RewardBench-2

PulseAugur coverage of RewardBench-2 — every cluster mentioning RewardBench-2 across labs, papers, and developer communities, ranked by signal.

Total · 30d

1

1 over 90d

Releases · 30d

0

0 over 90d

Papers · 30d

1

1 over 90d

TIER MIX · 90D

RECENT · PAGE 1/1 · 1 TOTAL

RESEARCH · CL_18293 · May 5 · 15:31

EvoLM enables self-improving language models without external supervision

Researchers have introduced EvoLM, a novel post-training method for language models that enables self-improvement without external supervision. This method involves alternating between training a rubric generator that c…