研究人员开发了一种利用离散余弦变换(DCT)来增强视觉Transformer的新颖方法。该方法包括一种基于DCT的自注意力初始化策略,可提高在CIFAR-10和ImageNet-1K等基准测试上的分类准确性。此外,一种基于DCT的注意力压缩技术通过截断输入块的高频分量来降低计算开销,从而在Swin Transformer等模型中保持性能。 AI
影响 引入了降低计算成本和提高视觉Transformer准确性的方法,可能促进更广泛的应用。
排序理由 学术论文,介绍了提高视觉Transformer效率和性能的新颖技术。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →