English(EN) Self-Improving Small Object Grounding in LVLMs

LVLMs 可利用注意力模式自改进小物体定位

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一个新颖的框架 ACS-Learned，该框架利用大型视觉语言模型 (LVLMs) 的内部注意力模式，无需微调即可改进小物体定位。通过在这些注意力图上训练一个轻量级回归器，系统可以预测定位质量并从多个候选框中选择最佳边界框。一个更高效的变体 ACS-Free，根据关键 Transformer 层中的注意力熵对候选框进行排序，在基准数据集上展示了小物体定位能力的显著自改进。 AI

影响增强了 LVLMs 精确定位小物体能力，可能提高基于视觉的 AI 应用的性能。

排序理由这是一篇详细介绍改进 LVLMs 中物体定位新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Tianze Yang, Yucheng Shi, Ruitong Sun, Ninghao Liu, Jin Sun · 2026-06-02 04:00

LVLMs中自改进的小物体接地

arXiv:2606.01612v1 Announce Type: cross Abstract: Can internal attention patterns in Large Vision Language Models (LVLMs) identify reliable small-object boxes without fine-tuning? In this work, we provide an affirmative answer. Attention structure in LVLMs encodes grounding quali…

报道来源 [1]

LVLMs中自改进的小物体接地

相关实体

相关话题