PulseAugur
实时 18:47:22
English(EN) MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization

新方法MASS-DPO通过高效的样本选择改进语言模型训练

研究人员开发了MASS-DPO,一种用于直接偏好优化(DPO)的新方法,可高效选择信息丰富的负样本来训练语言模型。该方法使用特定于PL的Fisher信息目标来识别互补信息的负响应的紧凑子集,从而减少了相似候选者的冗余。在推荐和多项选择QA基准上的实验表明,MASS-DPO在负样本数量显著减少的情况下,实现了相当或更优的准确性,改善了优化动态和对齐。 AI

影响 通过减少冗余数据来提高语言模型的训练效率,可能导致更快、更准确的模型开发。

排序理由 发表了一篇详细介绍语言模型优化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新方法MASS-DPO通过高效的样本选择改进语言模型训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Junda Wu ·

    MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization

    Multi-negative preference optimization under the Plackett--Luce (PL) model extends Direct Preference Optimization (DPO) by leveraging comparative signals across one preferred and multiple rejected responses. However, optimizing over large negative pools is costly, and many candid…