English(EN) MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization

新方法MASS-DPO通过高效的样本选择改进语言模型训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 16:18

研究人员开发了MASS-DPO，一种用于直接偏好优化（DPO）的新方法，可高效选择信息丰富的负样本来训练语言模型。该方法使用特定于PL的Fisher信息目标来识别互补信息的负响应的紧凑子集，从而减少了相似候选者的冗余。在推荐和多项选择QA基准上的实验表明，MASS-DPO在负样本数量显著减少的情况下，实现了相当或更优的准确性，改善了优化动态和对齐。 AI

影响通过减少冗余数据来提高语言模型的训练效率，可能导致更快、更准确的模型开发。

排序理由发表了一篇详细介绍语言模型优化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Junda Wu · 2026-05-11 16:18

MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization

Multi-negative preference optimization under the Plackett--Luce (PL) model extends Direct Preference Optimization (DPO) by leveraging comparative signals across one preferred and multiple rejected responses. However, optimizing over large negative pools is costly, and many candid…

报道来源 [1]

MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization

相关实体

相关话题