English(EN) Spatial Priors via Space Filling Curves for Small and Limited Data Vision Transformers

VIOLIN 通过空间先验增强了有限数据的视觉 Transformer

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了 VIOLIN，一种用于视觉 Transformer (ViTs) 的新型掩码注意力机制，它增强了它们处理有限数据或较小模型容量图像的能力。通过空间填充曲线 (SFCs) 编码空间结构，VIOLIN 增加了最少的参数和计算开销，同时显著提高了各种计算机视觉任务的性能。评估显示，在需要空间信息的任务上准确率提高了高达 8.7%，在像素级任务上提高了高达 7.2%，证明了其在微调和预训练场景中的有效性。 AI

影响增强了 Vision Transformer 在有限数据上的性能，有可能拓宽其在资源受限环境中的应用范围。

排序理由该集群包含一篇详细介绍改进 AI 模型新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Leyla Naz Candogan, Arshia Afzal, Pol Puigdemont, Volkan Cevher · 2026-06-16 04:00

Spatial Priors via Space Filling Curves for Small and Limited Data Vision Transformers

arXiv:2606.14757v1 Announce Type: cross Abstract: Though Vision Transformers (ViTs) have become the dominant backbone in many computer vision tasks, due to permutation equivariance, their attention mechanism lacks explicit spatial inductive biases. This become particularly import…

报道来源 [1]

Spatial Priors via Space Filling Curves for Small and Limited Data Vision Transformers

相关实体

相关话题