研究人员开发了一个名为FOCUS的新框架,以改进视觉-语言模型中的上下文内对象定位。该方法采用两阶段训练过程,在不依赖类别监督的情况下优化支持图像和查询图像之间的注意力。通过使用带有组相对策略优化(GRPO)的强化学习,该系统优先考虑视觉对应关系而非语义先验,以实现更鲁棒的实例级定位。 AI
影响 该方法可以通过实现更准确、与类别无关的对象定位来改进图像编辑和视觉搜索等应用。
排序理由 该集群包含一篇详细介绍AI模型中对象定位新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →