English(EN) Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

顺序DPO对语言模型偏好产生不同影响

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-18 03:20

研究人员调查了顺序直接偏好优化（DPO）对语言模型的影响，发现它不会均匀地损害先前学到的偏好。该研究使用 Llama-3.1-8B-Instruct 和 LoRA 适配器，分析了四种不同的偏好设置。结果表明，偏好变化可能从部分损害到稳定性、重新分配，甚至正向迁移，具体取决于目标之间的关系、信号强度和训练顺序。进一步分析表明，聚合指标可能会掩盖配对级别上的异构变化，高置信度配对有时会改善，有时会恶化。 AI

影响为优化语言模型以实现多个目标提供了见解，可能改进对齐策略。

排序理由学术论文，详细介绍了关于语言模型对齐技术的研究。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim · 2026-06-19 04:00

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

arXiv:2606.19744v1 Announce Type: cross Abstract: Aligning language models with human preferences often requires optimising multiple behavioural objectives. A practical approach is to apply these objectives sequentially using preference optimisation methods such as Direct Prefere…
arXiv cs.CL TIER_1 English(EN) · Mehwish Nasim · 2026-06-18 03:20

超越均匀遗忘：一项关于跨偏好设置的顺序直接偏好优化研究

Aligning language models with human preferences often requires optimising multiple behavioural objectives. A practical approach is to apply these objectives sequentially using preference optimisation methods such as Direct Preference Optimisation (DPO), but it remains unclear whe…

报道来源 [2]

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越均匀遗忘：一项关于跨偏好设置的顺序直接偏好优化研究

相关实体

相关话题