PulseAugur
实时 16:02:41
English(EN) Self-Improving Small Object Grounding in LVLMs

LVLMs 可利用注意力模式自改进小物体定位

研究人员开发了一个新颖的框架 ACS-Learned,该框架利用大型视觉语言模型 (LVLMs) 的内部注意力模式,无需微调即可改进小物体定位。通过在这些注意力图上训练一个轻量级回归器,系统可以预测定位质量并从多个候选框中选择最佳边界框。一个更高效的变体 ACS-Free,根据关键 Transformer 层中的注意力熵对候选框进行排序,在基准数据集上展示了小物体定位能力的显著自改进。 AI

影响 增强了 LVLMs 精确定位小物体能力,可能提高基于视觉的 AI 应用的性能。

排序理由 这是一篇详细介绍改进 LVLMs 中物体定位新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Tianze Yang, Yucheng Shi, Ruitong Sun, Ninghao Liu, Jin Sun ·

    Self-Improving Small Object Grounding in LVLMs

    arXiv:2606.01612v1 Announce Type: cross Abstract: Can internal attention patterns in Large Vision Language Models (LVLMs) identify reliable small-object boxes without fine-tuning? In this work, we provide an affirmative answer. Attention structure in LVLMs encodes grounding quali…