PulseAugur
实时 12:50:10
English(EN) UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

新的UDM-GRPO框架提升离散扩散模型性能

研究人员推出UDM-GRPO,一个将统一离散扩散模型(UDMs)与强化学习相结合以改进离散生成模型的新框架。该方法通过将最终的干净样本视为一个动作,并通过扩散前向过程重构轨迹,从而提高了训练稳定性和性能。诸如Reduced-Step和CFG-Free等附加策略进一步提高了效率,在文本到图像任务、OCR基准测试和其他应用中取得了最先进的结果。 AI

影响 这项研究可能带来更稳定、更高效的离散生成模型,从而提高文本到图像生成和OCR等任务的性能。

排序理由 这是一篇详细介绍生成模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang ·

    UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

    arXiv:2604.18518v3 Announce Type: replace-cross Abstract: Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively…