English(EN) UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

新的UDM-GRPO框架提升离散扩散模型性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员推出UDM-GRPO，一个将统一离散扩散模型（UDMs）与强化学习相结合以改进离散生成模型的新框架。该方法通过将最终的干净样本视为一个动作，并通过扩散前向过程重构轨迹，从而提高了训练稳定性和性能。诸如Reduced-Step和CFG-Free等附加策略进一步提高了效率，在文本到图像任务、OCR基准测试和其他应用中取得了最先进的结果。 AI

影响这项研究可能带来更稳定、更高效的离散生成模型，从而提高文本到图像生成和OCR等任务的性能。

排序理由这是一篇详细介绍生成模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Jiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang · 2026-05-28 04:00

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

arXiv:2604.18518v3 Announce Type: replace-cross Abstract: Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively…

报道来源 [1]

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

相关话题