研究人员开发了一种方法,使用测试时训练(TTT)将预训练的 Softmax 注意力模型适配到线性复杂度架构。该方法通过关注架构和表示的对齐来解决不同注意力机制之间的表示差距。该技术应用于 Stable Diffusion 3.5,产生了一个新模型 SD3.5-T$^5$,该模型在仅一小时的微调后,以显著更快的推理速度实现了可比的图像质量。 AI
影响 通过实现预训练权重到线性复杂度架构的高效适配,加速了扩散模型的推理。
排序理由 学术论文,详细介绍了一种将现有模型适配到不同架构的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →