ENTITY Direct Preference Optimisation

Direct Preference Optimisation

PulseAugur coverage of Direct Preference Optimisation — every cluster mentioning Direct Preference Optimisation across labs, papers, and developer communities, ranked by signal.

Show in brief

Total · 30d

2 over 90d

Releases · 30d

0 over 90d

Papers · 30d

2 over 90d

TIER MIX · 90D

TOPICS

SENTIMENT · 30D

2 day(s) with sentiment data

RECENT · PAGE 1/1 · 2 TOTAL

RESEARCH · CL_99653 · Jun 18 · 03:20

Sequential DPO shows varied impact on language model preferences

Researchers have investigated the impact of sequential Direct Preference Optimization (DPO) on language models, finding that it does not uniformly degrade previously learned preferences. The study, using Llama-3.1-8B-In…
TOOL · CL_53684 · May 27 · 04:00

New framework boosts LLM safety alignment with curriculum learning

Researchers have developed a new framework called Staged-Competence to improve the safety alignment of large language models using Direct Preference Optimization (DPO). This curriculum learning approach organizes prefer…

Sequential DPO shows varied impact on language model preferences

New framework boosts LLM safety alignment with curriculum learning