English(EN) Dynamic Mode Decomposition along Depth in Vision Transformers

ViT 深度计算由线性动力学近似

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 10:33

研究人员通过应用动态模式分解 (DMD) 来探索 Vision Transformers (ViTs) 的内部计算。他们的发现表明，ViT 中的连续块可以被重复应用的单个线性算子近似。该线性算子可以准确预测短跨度内的中间激活，尤其是在早期层和 'cls' token 中，但这种局部保真度并未转化为下游任务的性能提升。 AI

影响揭示 ViT 计算表现出线性动力学，预示着模型压缩和效率提升的潜力。

排序理由该集群包含一篇学术论文，详细介绍了一种理解现有模型的新分析方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Saif Eddin Jabari · 2026-05-08 10:33

Vision Transformers 中沿深度的动态模式分解

Recent work has shown that contiguous vision transformer (ViT) blocks (a) can be replaced by a linear map and (b) organize into recurrent phases of computation. We ask whether these observations coincide: does ViT depth implement approximately \textit{autonomous linear} dynamics,…

报道来源 [1]

Vision Transformers 中沿深度的动态模式分解

相关实体

相关话题