English(EN) Discrete Cosine Transform Based Decorrelated Attention for Vision Transformers

视觉Transformer利用DCT提升注意力和效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员开发了一种利用离散余弦变换（DCT）来增强视觉Transformer的新颖方法。该方法包括一种基于DCT的自注意力初始化策略，可提高在CIFAR-10和ImageNet-1K等基准测试上的分类准确性。此外，一种基于DCT的注意力压缩技术通过截断输入块的高频分量来降低计算开销，从而在Swin Transformer等模型中保持性能。 AI

影响引入了降低计算成本和提高视觉Transformer准确性的方法，可能促进更广泛的应用。

排序理由学术论文，介绍了提高视觉Transformer效率和性能的新颖技术。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Ahmet Enis Cetin, Ulas Bagci · 2026-05-04 04:00

基于离散余弦变换的解耦注意力机制用于视觉Transformer

arXiv:2405.13901v4 Announce Type: replace Abstract: Self-attention is central to the success of Transformer architectures; however, learning the query, key, and value projections from random initialization remains challenging and computationally expensive. In this paper, we propo…

报道来源 [1]

基于离散余弦变换的解耦注意力机制用于视觉Transformer

相关实体

相关话题