研究人员开发了 MAVEN,一个旨在自动化创建高质量结构化视频推理任务标注的代理式(agentic)流水线。该流水线能够合成多尺度事件描述,并支持代理驱动的领域自适应,使其能够在无人干预的情况下重新设计提示和流水线结构。MAVEN 已用于标注超过 5,300 个交通视频,并且在这些数据上微调名为 Cosmos-Reason2-8B 的模型,其性能在特定评估集上超越了 Gemini 2.5 Pro 和 3.1 Flash。 AI
影响 自动化视频数据标注,可能加速 VLM 训练并提高复杂推理任务的性能。
排序理由 该集群描述了一篇关于视频推理任务自动化标注流水线的新研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →