PulseAugur
实时 15:57:41
English(EN) Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

顺序DPO对语言模型偏好产生不同影响

研究人员调查了顺序直接偏好优化(DPO)对语言模型的影响,发现它不会均匀地损害先前学到的偏好。该研究使用 Llama-3.1-8B-InstructLoRA 适配器,分析了四种不同的偏好设置。结果表明,偏好变化可能从部分损害到稳定性、重新分配,甚至正向迁移,具体取决于目标之间的关系、信号强度和训练顺序。进一步分析表明,聚合指标可能会掩盖配对级别上的异构变化,高置信度配对有时会改善,有时会恶化。 AI

影响 为优化语言模型以实现多个目标提供了见解,可能改进对齐策略。

排序理由 学术论文,详细介绍了关于语言模型对齐技术的研究。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

顺序DPO对语言模型偏好产生不同影响

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim ·

    Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

    arXiv:2606.19744v1 Announce Type: cross Abstract: Aligning language models with human preferences often requires optimising multiple behavioural objectives. A practical approach is to apply these objectives sequentially using preference optimisation methods such as Direct Prefere…

  2. arXiv cs.CL TIER_1 English(EN) · Mehwish Nasim ·

    超越均匀遗忘:一项关于跨偏好设置的顺序直接偏好优化研究

    Aligning language models with human preferences often requires optimising multiple behavioural objectives. A practical approach is to apply these objectives sequentially using preference optimisation methods such as Direct Preference Optimisation (DPO), but it remains unclear whe…