研究人员发现,在 Vision Transformers (ViTs) 的特征蒸馏中存在一个关键问题,尤其是在模型压缩时。他们发现,虽然单张图像是可压缩的,但整个数据集表现出具有旋转低秩子空间的复杂结构。这种“编码不匹配”意味着标准的蒸馏方法会失败,因为跨通道的 token 级能量分布与教师模型的架构不一致。为了解决这个问题,该论文提出了两个简单的修复方法:“Lift”,在推理时添加一个轻量级投影仪,以及“WideLast”,拓宽学生的最后一个块。这些方法显著提高了压缩 ViTs 的性能,如在 ImageNet-1K 上所示。 AI
影响 提供了改进 Vision Transformer 模型效率和性能的新技术,这对于在资源受限设备上部署至关重要。
排序理由 学术论文,详细介绍了改进 Vision Transformers 中特征蒸馏的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →