研究人员开发了DiNa-LRM,一种新颖的扩散原生潜在奖励模型,旨在改进扩散和流匹配模型的偏好学习。这种新方法直接在有噪声的扩散状态下进行偏好学习,克服了使用视觉语言模型(VLM)提供奖励时出现的域不匹配问题。DiNa-LRM在性能上可与最先进的VLM相媲美,但计算成本显著降低,从而实现更快、更高效的模型对齐。 AI
影响 引入了一种计算效率更高的方法来对齐扩散模型,有望加速其开发和应用。
排序理由 发表了一篇学术论文,详细介绍了一种用于扩散模型奖励建模的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →