English(EN) Steerable Visual Representations

新的可控视觉表示允许对图像特征进行自然语言引导

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员引入了一类新的视觉表示，称为可控视觉表示（Steerable Visual Representations），旨在允许对图像特征进行自然语言引导。与现有关注显著线索或在以语言为中心的输出方面效果不佳的方法不同，该方法通过交叉注意力（cross-attention）的早期融合，将文本直接注入视觉编码器层。这使得表示能够关注图像中的任何所需对象，同时保持底层质量，在异常检测和个性化对象判别等任务上表现强劲。 AI

影响能够更精确地控制AI模型的视觉特征提取，有可能提高专业视觉任务的性能。

排序理由介绍视觉表示新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jona Ruthardt, Manu Gaur, Deva Ramanan, Makarand Tapaswi, Yuki M. Asano · 2026-06-30 04:00

可控的视觉表示

arXiv:2604.02327v2 Announce Type: replace-cross Abstract: Pretrained Vision Transformers (ViTs) such as DINOv2 and MAE provide generic image features that can be applied to a variety of downstream tasks such as retrieval, classification, and segmentation. However, such representa…

报道来源 [1]

可控的视觉表示

相关实体

相关话题