English(EN) Rethinking Cross-Layer Information Routing in Diffusion Transformers

新的路由方法提高了扩散 Transformer 的训练效率

作者 PulseAugur 编辑部 · [4 个来源] · 2026-05-20 00:00

研究人员开发了扩散自适应路由（DAR），一种改进扩散 Transformer（DiT）中信息流的新方法。通过分析跨层信息动态，他们发现了传统残差连接中的低效率。DAR 提供了一种可学习的、与时间步自适应的聚合方法，提高了训练效率和模型质量，在 ImageNet 上以更少的训练迭代次数取得了更好的 FID 分数。 AI

影响引入了一种提高扩散模型训练效率和质量的新技术，有望加速视觉生成 AI 的开发。

排序理由该集群包含一篇详细介绍改进扩散模型新方法的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。我们如何撰写摘要 →

报道来源 [4]

arXiv cs.AI TIER_1 English(EN) · Chao Xu, Maohua Li, Qirui Li, Yixuan Xu, Yanke Zhou, Yunhe Li, Cuifeng Shen, Hanlin Tang, Kan Liu, Tao Lan, Lin Qu, Shao-Qun Zhang · 2026-05-22 04:00

Rethinking Cross-Layer Information Routing in Diffusion Transformers

arXiv:2605.20708v1 Announce Type: cross Abstract: Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been exten…
arXiv cs.AI TIER_1 English(EN) · Shao-Qun Zhang · 2026-05-20 05:07

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 05:07

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 00:00

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Diffusion Transformers suffer from inefficient cross-layer information flow that traditional residual connections cannot address, prompting the introduction of a learnable, timestep-adaptive routing mechanism that improves training efficiency and model quality.

报道来源 [4]

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Rethinking Cross-Layer Information Routing in Diffusion Transformers

Rethinking Cross-Layer Information Routing in Diffusion Transformers

相关实体

相关话题