English(EN) FeVOS: Foresight Expression Video Object Segmentation

新的FeVOS任务和数据集推动预测性视频对象分割

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 08:56

研究人员提出了FeVOS，一项名为前瞻性表达视频对象分割（Foresight Expression Video Object Segmentation）的新任务，要求模型预测视频片段中的未来事件，并识别观察帧中的相应对象。该任务旨在通过查询未来动作来提高时空推理能力。为此，创建了一个名为FeVOS的新数据集，其中包含视频片段、前瞻性表达和思维链注释。一个名为FeVOS-R1的模型，使用多模态大语言模型（MLLM）构建，并通过监督微调和强化学习进行训练，在该数据集上展示了最先进的性能，并很好地泛化到现有基准。 AI

影响引入了一个新的视频感知预测推理基准，有望提升AI理解和预测未来事件的能力。

排序理由该集群包含一篇介绍新任务、数据集和模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Henghui Ding · 2026-06-24 08:56

FeVOS: Foresight Expression Video Object Segmentation

Existing Referring Video Object Segmentation tasks focus on referring expressions describing events, actions or appearances of relevant objects within the observed frames, lacking evaluation in scenarios that require pre-decisive spatio-temporal reasoning, thereby limiting their …

报道来源 [1]

FeVOS: Foresight Expression Video Object Segmentation

相关实体

相关话题