PulseAugur
实时 01:57:21
English(EN) Dynamic Mode Decomposition along Depth in Vision Transformers

ViT 深度计算由线性动力学近似

研究人员通过应用动态模式分解 (DMD) 来探索 Vision Transformers (ViTs) 的内部计算。他们的发现表明,ViT 中的连续块可以被重复应用的单个线性算子近似。该线性算子可以准确预测短跨度内的中间激活,尤其是在早期层和 'cls' token 中,但这种局部保真度并未转化为下游任务的性能提升。 AI

影响 揭示 ViT 计算表现出线性动力学,预示着模型压缩和效率提升的潜力。

排序理由 该集群包含一篇学术论文,详细介绍了一种理解现有模型的新分析方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

ViT 深度计算由线性动力学近似

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Saif Eddin Jabari ·

    Dynamic Mode Decomposition along Depth in Vision Transformers

    Recent work has shown that contiguous vision transformer (ViT) blocks (a) can be replaced by a linear map and (b) organize into recurrent phases of computation. We ask whether these observations coincide: does ViT depth implement approximately \textit{autonomous linear} dynamics,…