研究人员调查了顺序直接偏好优化(DPO)对语言模型的影响,发现它不会均匀地损害先前学到的偏好。该研究使用 Llama-3.1-8B-Instruct 和 LoRA 适配器,分析了四种不同的偏好设置。结果表明,偏好变化可能从部分损害到稳定性、重新分配,甚至正向迁移,具体取决于目标之间的关系、信号强度和训练顺序。进一步分析表明,聚合指标可能会掩盖配对级别上的异构变化,高置信度配对有时会改善,有时会恶化。 AI
影响 为优化语言模型以实现多个目标提供了见解,可能改进对齐策略。
排序理由 学术论文,详细介绍了关于语言模型对齐技术的研究。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Direct Preference Optimisation
- Direct Preference Optimization
- Gotit.pub
- Hugging Face
- Llama-3.1-8B-Instruct
- LoRA
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →