研究人员推出 MotionAtlas,一个专为以动作为中心的视频进行详细描述的新颖系统。该系统包括一个包含 2,073 个多项选择题的新基准数据集、一个用于生成高质量训练数据的可扩展管道以及一系列 Video-MLLM。MotionAtlas 专注于区域感知运动描述,能够精确描述特定时空区域内的运动,以改进评估并减少视觉混乱。该系统通过 MotionAtlas-4B 等模型展示了其性能,该模型在 Qwen3-VL-4B 等现有模型上取得了显著的提升。 AI
影响 增强了细粒度的视频理解和评估,可能改进需要详细运动分析的应用。
排序理由 该集群描述了一篇介绍视频描述新系统和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →