研究人员开发了一种名为 $A^2$ 的新方法,通过更好地定位前景物体来改进视觉分类。令人惊讶的是,更小的自监督 Vision Transformers (ViTs) 比更大的 ViTs 产生更准确的定位注意力图。$A^2$ 方法结合了用于注意力裁剪的小型 ViT 和用于丰富特征提取的大型 ViT,在五个基准测试中取得了有竞争力的结果,而无需分组标签或特定数据集的训练。 AI
影响 通过结合小型和大型 ViT,改进了视觉分类任务中的物体定位。
排序理由 该集群包含一篇详细介绍视觉分类新方法的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →