研究人员引入了一类新的视觉表示,称为可控视觉表示(Steerable Visual Representations),旨在允许对图像特征进行自然语言引导。与现有关注显著线索或在以语言为中心的输出方面效果不佳的方法不同,该方法通过交叉注意力(cross-attention)的早期融合,将文本直接注入视觉编码器层。这使得表示能够关注图像中的任何所需对象,同时保持底层质量,在异常检测和个性化对象判别等任务上表现强劲。 AI
影响 能够更精确地控制AI模型的视觉特征提取,有可能提高专业视觉任务的性能。
排序理由 介绍视觉表示新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →