English(EN) An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation

新的MTRS基准和CRAFT-Agent应对多时相视觉语言任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员引入了一项名为多时相指代分割（MTRS）的新任务，用于评估大型视觉语言模型（LVLMs）理解和分割多张带时间戳图像中语言描述的变化的能力。他们还开发了CRAFT-Agent，一个用于构建名为MTRefSeg-21K的数据集的管道，该数据集包含超过21,000个图像-文本-掩码三元组。为了解决现有模型在此任务上的表现不佳的问题，他们提出了MTRefSeg-R1，一个新颖的LVLM框架，该框架首先学习时间变化感知，然后进行语言引导定位的微调，展示了改进的结果。 AI

影响引入了一个新的基准和框架，以提升LVLM在理解图像中时间变化方面的能力。

排序理由该集群包含一篇介绍新任务、数据集和模型框架的研究论文。[lever_c_降级自研究：ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Bingyu Li, Da Zhang, Tao Huo, Zhiyuan Zhao, Junyu Gao, Xuelong Li · 2026-06-02 04:00

An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation

arXiv:2606.00987v1 Announce Type: cross Abstract: Large Vision-Language Models (LVLMs) have shown strong visual understanding and language-guided grounding abilities, yet their capacity for multi-temporal visual reasoning remains underexplored. To bridge this gap, we introduce \t…

报道来源 [1]

An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation

相关话题