PulseAugur
实时 12:46:33
English(EN) From Per-Image Low-Rank to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers

新研究解决了 Vision Transformers 中的特征蒸馏挑战

研究人员发现,在 Vision Transformers (ViTs) 的特征蒸馏中存在一个关键问题,尤其是在模型压缩时。他们发现,虽然单张图像是可压缩的,但整个数据集表现出具有旋转低秩子空间的复杂结构。这种“编码不匹配”意味着标准的蒸馏方法会失败,因为跨通道的 token 级能量分布与教师模型的架构不一致。为了解决这个问题,该论文提出了两个简单的修复方法:“Lift”,在推理时添加一个轻量级投影仪,以及“WideLast”,拓宽学生的最后一个块。这些方法显著提高了压缩 ViTs 的性能,如在 ImageNet-1K 上所示。 AI

影响 提供了改进 Vision Transformer 模型效率和性能的新技术,这对于在资源受限设备上部署至关重要。

排序理由 学术论文,详细介绍了改进 Vision Transformers 中特征蒸馏的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Huiyuan Tian, Bonan Xu, Shijian Li ·

    From Per-Image Low-Rank to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers

    arXiv:2511.15572v3 Announce Type: replace Abstract: Feature-map knowledge distillation (KD) transfers internal representations well between comparably sized Vision Transformers (ViTs), but it often fails in compression. We revisit this failure and uncover a paradox. Sample-wise S…