PulseAugur
实时 20:18:02
None Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

扩散模型获得原生潜在奖励建模

研究人员开发了DiNa-LRM,一种新颖的扩散原生潜在奖励模型,旨在改进扩散和流匹配模型的偏好学习。这种新方法直接在有噪声的扩散状态下进行偏好学习,克服了使用视觉语言模型(VLM)提供奖励时出现的域不匹配问题。DiNa-LRM在性能上可与最先进的VLM相媲美,但计算成本显著降低,从而实现更快、更高效的模型对齐。 AI

影响 引入了一种计算效率更高的方法来对齐扩散模型,有望加速其开发和应用。

排序理由 发表了一篇学术论文,详细介绍了一种用于扩散模型奖励建模的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 · Gongye Liu, Bo Yang, Yida Zhi, Zhizhou Zhong, Lei Ke, Didan Deng, Han Gao, Yongxiang Huang, Kaihao Zhang, Hongbo Fu, Wenhan Luo ·

    Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

    arXiv:2602.11146v2 Announce Type: replace-cross Abstract: Preference optimization for diffusion and flow-matching models relies on reward functions that are both discriminatively robust and computationally efficient. Vision-Language Models (VLMs) have emerged as the primary rewar…