PulseAugur
实时 22:19:53
English(EN) FOCUS: Forcing In-Context Object Localization through Visual Support Constraints and Policy Optimization

新的FOCUS框架增强了视觉模型中的对象定位

研究人员开发了一个名为FOCUS的新框架,以改进视觉-语言模型中的上下文内对象定位。该方法采用两阶段训练过程,在不依赖类别监督的情况下优化支持图像和查询图像之间的注意力。通过使用带有组相对策略优化(GRPO)的强化学习,该系统优先考虑视觉对应关系而非语义先验,以实现更鲁棒的实例级定位。 AI

影响 该方法可以通过实现更准确、与类别无关的对象定位来改进图像编辑和视觉搜索等应用。

排序理由 该集群包含一篇详细介绍AI模型中对象定位新方法的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Mohammed Asad Karim, Vinay Kumar Verma ·

    聚焦:通过视觉支持约束和策略优化强制进行上下文对象本地化

    arXiv:2605.31145v1 Announce Type: cross Abstract: In-context localization (ICL) seeks to localize a target object specified by a small set of support examples in a query image, operating on the fly without training or parameter updates. Despite rapid advances in vision-language m…

  2. arXiv cs.AI TIER_1 English(EN) · Vinay Kumar Verma ·

    聚焦:通过视觉支持约束和策略优化强制进行上下文对象本地化

    In-context localization (ICL) seeks to localize a target object specified by a small set of support examples in a query image, operating on the fly without training or parameter updates. Despite rapid advances in vision-language models (VLMs), achieving category-agnostic and visu…