研究人员开发了一种名为Rea2Seg的新型两阶段框架,用于利用多模态大语言模型(MLLM)的图像分割任务。该方法首先从MLLM的注意力图中识别候选掩码,然后利用MLLM对这些候选进行推理并选择最准确的一个。为了进一步评估和推进这些能力,引入了一个新的基准ReasonSeg-SGDR,以评估跨不同维度的感知、定位和推理能力。 AI
影响 引入了一种改进基于MLLM的图像分割的新方法和一个用于评估这些模型的基准。
排序理由 这是一篇描述图像分割新框架和基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →