研究人员开发了一个新框架,用于分析自监督视觉 Transformer (ViTs) 如何编码几何信息。通过使用奇异值分解 (SVD) 来检查线性探针的权重,他们发现预训练目标显著影响特征编码。具体来说,DINOv2 对齐空间特征以便于提取,而掩码自编码器 (MAE) 则分散这些信号,需要更广泛的上下文。研究还表明,几何表示具有高度可压缩性,并且几何精度在中间层达到峰值,然后转移到语义抽象。 AI
影响 为视觉 Transformer 的特征选择和解码器设计提供了见解。
排序理由 学术论文,详细介绍了一种分析 AI 模型表示的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →