实体 Direct Preference Optimisation

Direct Preference Optimisation

PulseAugur coverage of Direct Preference Optimisation — every cluster mentioning Direct Preference Optimisation across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_99653 · Jun 18 · 03:20

顺序DPO对语言模型偏好产生不同影响

研究人员调查了顺序直接偏好优化（DPO）对语言模型的影响，发现它不会均匀地损害先前学到的偏好。该研究使用 Llama-3.1-8B-Instruct 和 LoRA 适配器，分析了四种不同的偏好设置。结果表明，偏好变化可能从部分损害到稳定性、重新分配，甚至正向迁移，具体取决于目标之间的关系、信号强度和训练顺序。进一步分析表明，聚合指标可能会掩盖配对级别上的异构变化，高置信度配对有时会改善，有时会恶化。
TOOL · CL_53684 · May 27 · 04:00

新框架利用课程学习提升大语言模型安全对齐能力

研究人员开发了一个名为Staged-Competence的新框架，利用直接偏好优化（DPO）来改进大语言模型的安全对齐。这种课程学习方法按难度组织偏好数据，并在训练过程中逐步更新参考模型。实验表明，Staged-Competence在保持通用能力的同时，将有害响应率降低了16%，越狱成功率降低了20%。

顺序DPO对语言模型偏好产生不同影响

新框架利用课程学习提升大语言模型安全对齐能力