English(EN) From Per-Image Low-Rank to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers

新研究解决了 Vision Transformers 中的特征蒸馏挑战

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员发现，在 Vision Transformers (ViTs) 的特征蒸馏中存在一个关键问题，尤其是在模型压缩时。他们发现，虽然单张图像是可压缩的，但整个数据集表现出具有旋转低秩子空间的复杂结构。这种“编码不匹配”意味着标准的蒸馏方法会失败，因为跨通道的 token 级能量分布与教师模型的架构不一致。为了解决这个问题，该论文提出了两个简单的修复方法：“Lift”，在推理时添加一个轻量级投影仪，以及“WideLast”，拓宽学生的最后一个块。这些方法显著提高了压缩 ViTs 的性能，如在 ImageNet-1K 上所示。 AI

影响提供了改进 Vision Transformer 模型效率和性能的新技术，这对于在资源受限设备上部署至关重要。

排序理由学术论文，详细介绍了改进 Vision Transformers 中特征蒸馏的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Huiyuan Tian, Bonan Xu, Shijian Li · 2026-05-27 04:00

From Per-Image Low-Rank to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers

arXiv:2511.15572v3 Announce Type: replace Abstract: Feature-map knowledge distillation (KD) transfers internal representations well between comparably sized Vision Transformers (ViTs), but it often fails in compression. We revisit this failure and uncover a paradox. Sample-wise S…

报道来源 [1]

From Per-Image Low-Rank to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers

相关实体

相关话题