实体
Direct Preference Optimisation
Direct Preference Optimisation
PulseAugur coverage of Direct Preference Optimisation — every cluster mentioning Direct Preference Optimisation across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
顺序DPO对语言模型偏好产生不同影响
研究人员调查了顺序直接偏好优化(DPO)对语言模型的影响,发现它不会均匀地损害先前学到的偏好。该研究使用 Llama-3.1-8B-Instruct 和 LoRA 适配器,分析了四种不同的偏好设置。结果表明,偏好变化可能从部分损害到稳定性、重新分配,甚至正向迁移,具体取决于目标之间的关系、信号强度和训练顺序。进一步分析表明,聚合指标可能会掩盖配对级别上的异构变化,高置信度配对有时会改善,有时会恶化。
-
新框架利用课程学习提升大语言模型安全对齐能力
研究人员开发了一个名为Staged-Competence的新框架,利用直接偏好优化(DPO)来改进大语言模型的安全对齐。这种课程学习方法按难度组织偏好数据,并在训练过程中逐步更新参考模型。实验表明,Staged-Competence在保持通用能力的同时,将有害响应率降低了16%,越狱成功率降低了20%。