English(EN) Enhancing Part-Level Point Grounding for Any Open-Source MLLMs

新方法提升开源MLLM的细粒度图像部件定位能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一种新方法，以增强开源多模态大语言模型（MLLM）的部分级点定位能力。该方法在最近的一篇arXiv论文中有所介绍，它允许现有的MLLM将特定图像区域与文本查询准确关联起来，超越了对象级定位，实现了更细粒度的部件级识别。该技术利用了MLLM固有的注意力机制，引入了一个Q-Synth模块来合成感知定位的查询，以及一个Attention-to-Point解码器将这些查询转换为以点为中心的预测热图，同时保持原始MLLM参数冻结。 AI

影响增强了开源MLLM的细粒度图像理解能力，有望改进机器人技术和详细图像分析等应用。

排序理由该集群包含一篇详细介绍增强AI模型能力新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jin-Cheng Jhang, Fu-En Wang, Xin Yang, Nan Qiao, Lu Xia, Min Sun, Cheng-Hao Kuo · 2026-06-30 04:00

增强任何开源MLLM的部件级点状地面定位

arXiv:2606.29267v1 Announce Type: new Abstract: Visual grounding aims to associate free-form textual queries with specific regions in an image. While recent Multimodal Large Language Models (MLLMs) have demonstrated promising capabilities in this domain, they primarily excel at o…

报道来源 [1]

增强任何开源MLLM的部件级点状地面定位

相关实体

相关话题