Weierstrass Positional Encoding 增强 Vision Transformers

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

研究人员推出了一种新颖的增强 Vision Transformers (ViTs) 的方法——Weierstrass Positional Encoding (WePE)，通过更好地保留图像固有的二维空间结构来提升性能。与现有方法在 patch 展平后可能削弱空间关系不同，WePE 使用 Weierstrass 椭圆函数在复数域中编码二维坐标，并利用其格结构来匹配图像 patch 网格。该方法旨在更忠实地建模空间距离，并允许直接推导相对位置信息，在没有显著计算开销的情况下提供一致的性能提升。 AI

影响引入了一种新颖的编码方法，有望提高 Vision Transformers 在计算机视觉任务中的空间推理能力。

排序理由该集群包含一篇详细介绍改进现有 AI 模型的新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Weierstrass Positional Encoding 增强 Vision Transformers

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhihang Xin, Rui Wang, Xitong Hu, Xiaojun Wu · 2026-05-25 04:00

用于视觉 Transformer 的 Weierstrass 位置编码

arXiv:2605.23719v1 Announce Type: cross Abstract: Vision Transformers have achieved remarkable success in computer vision, but their common use of learnable one-dimensional positional encodings weakens the inherent two-dimensional spatial structure of images after patch flattenin…

报道来源 [1]

用于视觉 Transformer 的 Weierstrass 位置编码

相关实体

相关话题