研究人员推出了一种新颖的训练框架SpatialFlow-GRPO,旨在通过解决强化学习中全图奖励信号的局限性来提高图像编辑质量。该新方法结合了空间细粒度奖励反馈,将区域感知奖励转换为与策略更新期间特定潜在位置对齐的优化信号。该框架还包括一个名为SFReward的区域感知奖励模型、一个名为SFReward-14K的数据集,以及一个名为MultiEditBench的基准套件,用于评估多区域编辑能力。在OmniGen2和FLUX.2-klein-4B上的实验表明,SpatialFlow-GRPO在多个基准测试中均优于现有的Flow-GRPO方法,通过局部反馈提高了编辑质量。 AI
影响 通过在强化学习模型中实现更精确、局部的反馈来提高图像编辑质量。
排序理由 该集群描述了一篇详细介绍图像编辑新框架的最新研究论文。
- Flow-GRPO
- FLUX.2-klein-4B
- GEdit-Bench
- ImgEdit-Bench
- MultiEditBench
- OmniGen2
- SFReward
- SFReward-14K
- SpatialFlow-GRPO
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →