研究人员引入了一项名为多时相指代分割(MTRS)的新任务,用于评估大型视觉语言模型(LVLMs)理解和分割多张带时间戳图像中语言描述的变化的能力。他们还开发了CRAFT-Agent,一个用于构建名为MTRefSeg-21K的数据集的管道,该数据集包含超过21,000个图像-文本-掩码三元组。为了解决现有模型在此任务上的表现不佳的问题,他们提出了MTRefSeg-R1,一个新颖的LVLM框架,该框架首先学习时间变化感知,然后进行语言引导定位的微调,展示了改进的结果。 AI
影响 引入了一个新的基准和框架,以提升LVLM在理解图像中时间变化方面的能力。
排序理由 该集群包含一篇介绍新任务、数据集和模型框架的研究论文。[lever_c_降级自研究:ic=1 ai=1.0]
- CRAFT-Agent
- Large Vision-Language Models (LVLMs)
- MTRefSeg-21K
- MTRefSeg-R1
- Multi-temporal Referring Segmentation (MTRS)
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →