English(EN) FOCUS: Forcing In-Context Object Localization through Visual Support Constraints and Policy Optimization

新的FOCUS框架增强了视觉模型中的对象定位

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-29 10:53

研究人员开发了一个名为FOCUS的新框架，以改进视觉-语言模型中的上下文内对象定位。该方法采用两阶段训练过程，在不依赖类别监督的情况下优化支持图像和查询图像之间的注意力。通过使用带有组相对策略优化（GRPO）的强化学习，该系统优先考虑视觉对应关系而非语义先验，以实现更鲁棒的实例级定位。 AI

影响该方法可以通过实现更准确、与类别无关的对象定位来改进图像编辑和视觉搜索等应用。

排序理由该集群包含一篇详细介绍AI模型中对象定位新方法的论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Mohammed Asad Karim, Vinay Kumar Verma · 2026-06-01 04:00

聚焦：通过视觉支持约束和策略优化强制进行上下文对象本地化

arXiv:2605.31145v1 Announce Type: cross Abstract: In-context localization (ICL) seeks to localize a target object specified by a small set of support examples in a query image, operating on the fly without training or parameter updates. Despite rapid advances in vision-language m…
arXiv cs.AI TIER_1 English(EN) · Vinay Kumar Verma · 2026-05-29 10:53

聚焦：通过视觉支持约束和策略优化强制进行上下文对象本地化

In-context localization (ICL) seeks to localize a target object specified by a small set of support examples in a query image, operating on the fly without training or parameter updates. Despite rapid advances in vision-language models (VLMs), achieving category-agnostic and visu…