研究人员发现了一种称为“语义扩散”的现象,该现象会随着时间的推移降低 Vision Transformers (ViTs) 在密集预测任务中的性能。当全局语义信息不恰当地通过 patch tokens 扩散时会发生这种情况。为了解决这个问题,该研究提出使用稀疏注意力机制,特别是 entmax-1.5,使 token 交互更具选择性。这一改进显著提高了在 VOC、ADE20K 和 Cityscapes 等语义分割基准上的性能,同时保持了图像级别的准确性。 AI
影响 Vision Transformers 中选择性的 token 混合可以提高计算机视觉任务(如语义分割)的性能。
排序理由 该集群包含一篇学术论文,详细介绍了一种改进现有 AI 模型的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →