研究人员开发了一种名为 Active Spatial Guidance (Guidance) 的新训练技术,消除了 Vision Transformers (ViTs) 中对显式位置嵌入的需求。通过在训练期间对最后一层 patch token 应用辅助的二维坐标回归损失,Guidance 直接从数据中诱导空间组织。该方法在 ImageNet-100 分类和 ADE20K 语义分割等任务上持续提高了性能,优于传统的注入式位置机制,如学习到的绝对位置嵌入和旋转位置嵌入。 AI
影响 这项训练技术通过消除架构复杂性,有望带来更高效、更鲁棒的 Vision Transformers。
排序理由 该集群包含一篇详细介绍计算机视觉模型新训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Active Spatial Guidance
- ADE20K
- DINOv3 ViT
- ImageNet-100
- learned absolute positional embeddings
- rotary positional embeddings
- Vision Transformers
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →