研究人员在用于文本到图像生成的多模态扩散 Transformer (MMDiTs) 中发现了一个“提示遗忘”问题。这种现象发生是因为文本提示的语义表示在穿过模型更深层时会降级。为了解决这个问题,提出了一种名为“提示再注入”的新型无训练方法,该方法将早期层的提示表示重新引入到后期层。在 SD3、SD3.5 和 FLUX.1 等模型上进行的实验表明,该技术提高了指令遵循能力和整体生成质量。 AI
影响 这项研究提供了一种技术,可以增强当前文本到图像扩散模型的指令遵循能力。
排序理由 该集群包含一篇学术论文,详细介绍了一种改进现有模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →