PulseAugur
实时 23:51:02
English(EN) Linearizing Vision Transformer with Test-Time Training

通过测试时训练实现视觉 Transformer 的线性化

研究人员开发了一种方法,使用测试时训练(TTT)将预训练的 Softmax 注意力模型适配到线性复杂度架构。该方法通过关注架构和表示的对齐来解决不同注意力机制之间的表示差距。该技术应用于 Stable Diffusion 3.5,产生了一个新模型 SD3.5-T$^5$,该模型在仅一小时的微调后,以显著更快的推理速度实现了可比的图像质量。 AI

影响 通过实现预训练权重到线性复杂度架构的高效适配,加速了扩散模型的推理。

排序理由 学术论文,详细介绍了一种将现有模型适配到不同架构的新方法。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

通过测试时训练实现视觉 Transformer 的线性化

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Yining Li, Dongchen Han, Zeyu Liu, Hanyi Wang, Yulin Wang, Gao Huang ·

    Linearizing Vision Transformer with Test-Time Training

    arXiv:2605.02772v1 Announce Type: new Abstract: While linear-complexity attention mechanisms offer a promising alternative to Softmax attention for overcoming the quadratic bottleneck, training such models from scratch remains prohibitively expensive. Inheriting weights from pret…

  2. arXiv cs.CV TIER_1 English(EN) · Gao Huang ·

    Linearizing Vision Transformer with Test-Time Training

    While linear-complexity attention mechanisms offer a promising alternative to Softmax attention for overcoming the quadratic bottleneck, training such models from scratch remains prohibitively expensive. Inheriting weights from pretrained Transformers provides an appealing shortc…