English(EN) Inducing Spatial Locality in Vision Transformers through the Training Protocol

CutMix 训练协议在视觉 Transformer 中诱导空间局部性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 04:00

研究人员发现，特定的训练技术可以促进视觉 Transformer 的空间局部性。通过使用涉及 CutMix 和 ColorJitter 等数据增强以及标签平滑的“现代”协议，ViT 的早期层显示出更集中的注意力模式。一项消融研究表明，CutMix 是这种效应的主要驱动因素，与基线方法相比，显著降低了平均注意力距离。 AI

影响像 CutMix 这样的训练协议可以通过促进局部注意力来提高视觉 Transformer 的效率和可解释性。

排序理由该集群包含一篇详细介绍机器学习模型训练新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Eduardo Santiago Toledo, Asael Fabian Mart\'inez · 2026-05-19 04:00

通过训练协议在视觉 Transformer 中诱导空间局部性

arXiv:2605.16390v1 Announce Type: cross Abstract: We investigate whether the training protocol can induce spatial locality in the early layers of a Vision Transformer (ViT) trained from scratch, without large-scale pretraining. Keeping the architecture and optimization procedure …

报道来源 [1]

通过训练协议在视觉 Transformer 中诱导空间局部性

相关实体

相关话题