ENTITY PKU-SafeRLHF

PKU-SafeRLHF

PulseAugur coverage of PKU-SafeRLHF — every cluster mentioning PKU-SafeRLHF across labs, papers, and developer communities, ranked by signal.

Total · 30d

2

2 over 90d

Releases · 30d

0

0 over 90d

Papers · 30d

2

2 over 90d

TIER MIX · 90D

TOPICS

SENTIMENT · 30D

2 day(s) with sentiment data

RECENT · PAGE 1/1 · 2 TOTAL

TOOL · CL_100122 · Jun 19 · 04:00

New method enhances LLM alignment by modeling reward uncertainty

Researchers have developed a new method called Uncertainty-Aware Reward Modeling (UARM) to improve the stability of reinforcement learning from human feedback (RLHF) in large language models. Traditional RLHF methods st…
TOOL · CL_53892 · May 27 · 04:00

New CompassDPO Framework Enhances AI Safety Alignment Robustness

Researchers have introduced CompassDPO, a new framework designed to enhance the robustness of safety alignment in language models. This method addresses the sensitivity of Direct Preference Optimization (DPO) to imperfe…