研究人员推出了一种名为去噪注意力(DnA)的新方法,旨在提高基于注意力模型的视觉任务性能。DnA通过使用正负查询分别识别相关和不相关的图像特征,解决了标准softmax激活产生的噪声注意力模式问题。该方法将交互投影到不同的子空间,增强了特征的可辨别性。当应用于Vision Transformer Base (ViT-B)骨干网络时,DnA在ImageNet-1K上实现了0.8%的绝对增益,并在视频理解任务(包括视频Transformer和视频LLM)中表现出改进。 AI
影响 DnA在视觉和视频理解任务方面的改进可能导致在图像识别和视频分析等领域中更强大、更准确的AI系统。
排序理由 该集群包含一篇详细介绍视觉任务新方法的学术论文。
- arXiv
- Denoising Attention
- ImageNet-1K
- multihead attention
- Softmax
- Video LLMs
- video transformers
- Vision Transformer Base
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →