SEGA方法增强了扩散Transformer的图像生成分辨率

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-21 00:00

研究人员开发了SEGA，一种新颖的无需训练的方法，用于提高文本到图像生成中使用的扩散Transformer的分辨率外推能力。SEGA在去噪过程中自适应地调整潜在表示不同频率分量的注意力。与现有方法相比，这种方法提高了生成图像在更高分辨率下的结构连贯性和精细细节保真度。 AI

影响提高了扩散Transformer模型在更高分辨率下的图像生成质量。

排序理由该集群包含一篇详细介绍提高扩散Transformer性能的新方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-21 00:00

SEGA：用于扩散 Transformer 中分辨率外推的谱能量引导注意力

SEGA improves high-resolution text-to-image generation by adaptively scaling attention across RoPE components based on spatial-frequency structure during denoising steps.
arXiv cs.CV TIER_1 English(EN) · Javad Rajabi, Kimia Shaban, Koorosh Roohi, David B. Lindell, Babak Taati · 2026-05-22 04:00

SEGA：用于扩散 Transformer 中分辨率外推的谱能量引导注意力

arXiv:2605.22668v1 Announce Type: new Abstract: Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate t…
arXiv cs.CV TIER_1 English(EN) · Babak Taati · 2026-05-21 16:09

SEGA：用于扩散 Transformer 中分辨率外推的谱能量引导注意力

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavi…