研究人员提出了FeVOS,一项名为前瞻性表达视频对象分割(Foresight Expression Video Object Segmentation)的新任务,要求模型预测视频片段中的未来事件,并识别观察帧中的相应对象。该任务旨在通过查询未来动作来提高时空推理能力。为此,创建了一个名为FeVOS的新数据集,其中包含视频片段、前瞻性表达和思维链注释。一个名为FeVOS-R1的模型,使用多模态大语言模型(MLLM)构建,并通过监督微调和强化学习进行训练,在该数据集上展示了最先进的性能,并很好地泛化到现有基准。 AI
影响 引入了一个新的视频感知预测推理基准,有望提升AI理解和预测未来事件的能力。
排序理由 该集群包含一篇介绍新任务、数据集和模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →