PulseAugur
实时 12:05:44

新方法解决文本到图像模型中的提示遗忘问题

研究人员在用于文本到图像生成的多模态扩散 Transformer (MMDiTs) 中发现了一个“提示遗忘”问题。这种现象发生是因为文本提示的语义表示在穿过模型更深层时会降级。为了解决这个问题,提出了一种名为“提示再注入”的新型无训练方法,该方法将早期层的提示表示重新引入到后期层。在 SD3SD3.5FLUX.1 等模型上进行的实验表明,该技术提高了指令遵循能力和整体生成质量。 AI

影响 这项研究提供了一种技术,可以增强当前文本到图像扩散模型的指令遵循能力。

排序理由 该集群包含一篇学术论文,详细介绍了一种改进现有模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Yuxuan Yao, Yuxuan Chen, Hui Li, Kaihui Cheng, Qipeng Guo, Yuwei Sun, Zilong Dong, Jingdong Wang, Siyu Zhu ·

    Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

    arXiv:2602.06886v4 Announce Type: replace Abstract: Multimodal Diffusion Transformers (MMDiTs) for text-to-image generation maintain separate text and image branches, with bidirectional information flow between text tokens and visual latents throughout denoising. In this setting,…