English(EN) ScalingAttention: Discovering Intrinsic Sparse Attention Topology for Video Diffusion Transformers

新的 ScalingAttention 框架提升了扩散 Transformer 的视频生成能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 08:32

研究人员开发了 ScalingAttention，一个旨在优化扩散 Transformer (DiTs) 视频生成的新框架。该方法通过发现一种在训练过程中对提示不敏感且稳定的内在稀疏注意力拓扑，解决了 DiTs 中全 3D 注意力造成的计算瓶颈。该框架利用 WEST 进行离线块稀疏先验掩码提取，并利用 FAST 进行自适应头稀疏调整，从而在视频生成任务中实现了显著的加速和更高的保真度。 AI

影响这项研究可能带来更高效、更快速的视频生成模型，对创意产业和人工智能发展产生影响。

排序理由这是一篇详细介绍提高 AI 模型效率新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

新的 ScalingAttention 框架提升了扩散 Transformer 的视频生成能力

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Chengru Song · 2026-06-22 08:32

ScalingAttention: Discovering Intrinsic Sparse Attention Topology for Video Diffusion Transformers

While Diffusion Transformers (DiTs) have revolutionized high-fidelity video generation, their reliance on 3D full attention creates a quadratic computational bottleneck. Existing sparse methods face a dilemma: dynamic pruning suffers from prohibitive runtime overhead and memory f…

报道来源 [1]

ScalingAttention: Discovering Intrinsic Sparse Attention Topology for Video Diffusion Transformers

相关实体

相关话题