研究人员开发了 SMARLI,一种用于布局条件自回归文本到图像生成的新框架。该方法在注意力机制中使用结构化掩码策略,将空间布局约束与文本和图像 token 有效地集成起来,防止特征纠缠。此外,还采用了一种适用于基于 next-set 范式的组相对策略优化 (GRPO) 方案,并结合了图像质量和布局奖励,以减轻曝光偏差并提高生成准确性。实验表明,SMARLI 在保持自回归模型效率的同时增强了布局控制,并且可以迁移到标准的基于 next-token 的模型。 AI
影响 这项研究介绍了一种用于改进文本到图像生成模型中布局控制的新方法,有望实现更精确、更符合上下文的图像合成。
排序理由 该集群包含一篇关于文本到图像生成新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →