PulseAugur
实时 12:28:42
English(EN) $A^2$: Smaller Self-Supervised ViTs Localize Better than Larger Ones

$A^2$ 方法使用小型 ViT 实现更好的物体定位

研究人员开发了一种名为 $A^2$ 的新方法,通过更好地定位前景物体来改进视觉分类。令人惊讶的是,更小的自监督 Vision Transformers (ViTs) 比更大的 ViTs 产生更准确的定位注意力图。$A^2$ 方法结合了用于注意力裁剪的小型 ViT 和用于丰富特征提取的大型 ViT,在五个基准测试中取得了有竞争力的结果,而无需分组标签或特定数据集的训练。 AI

影响 通过结合小型和大型 ViT,改进了视觉分类任务中的物体定位。

排序理由 该集群包含一篇详细介绍视觉分类新方法的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    $A^2$: Smaller Self-Supervised ViTs Localize Better than Larger Ones

    Robust visual classification often depends on localizing the main foreground objects in an image while ignoring contextual distractors. Surprisingly, we find that the attention maps of smaller self-supervised ViTs localize foreground objects better than those of larger ViTs. Howe…

  2. arXiv cs.CV TIER_1 English(EN) · Sreehari Rammohan, Huy Ha, Carl Vondrick ·

    $A^2$: Smaller Self-Supervised ViTs Localize Better than Larger Ones

    arXiv:2606.03148v1 Announce Type: new Abstract: Robust visual classification often depends on localizing the main foreground objects in an image while ignoring contextual distractors. Surprisingly, we find that the attention maps of smaller self-supervised ViTs localize foregroun…