English(EN) MotionAtlas: Detailed Region Captioning for Motion-Centric Videos

MotionAtlas 系统为视频提供详细区域描述

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出 MotionAtlas，一个专为以动作为中心的视频进行详细描述的新颖系统。该系统包括一个包含 2,073 个多项选择题的新基准数据集、一个用于生成高质量训练数据的可扩展管道以及一系列 Video-MLLM。MotionAtlas 专注于区域感知运动描述，能够精确描述特定时空区域内的运动，以改进评估并减少视觉混乱。该系统通过 MotionAtlas-4B 等模型展示了其性能，该模型在 Qwen3-VL-4B 等现有模型上取得了显著的提升。 AI

影响增强了细粒度的视频理解和评估，可能改进需要详细运动分析的应用。

排序理由该集群描述了一篇介绍视频描述新系统和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Weisong Liu, Haochen Wang, Kuan Gao, Yuhao Wang, Yikang Zhou, Zhongwei Ren, Jacky Mai, Anna Wang, Yanwei Li, Jason Li, Zhaoxiang Zhang · 2026-06-30 04:00

MotionAtlas: Detailed Region Captioning for Motion-Centric Videos

arXiv:2606.29531v1 Announce Type: cross Abstract: We propose MotionAtlas, a system for detailed captioning of motion-centric videos, comprising (1) a dedicated human-annotated benchmark, (2) a scalable, high-quality pipeline to construct training samples, and (3) a family of powe…

报道来源 [1]

MotionAtlas: Detailed Region Captioning for Motion-Centric Videos

相关实体

相关话题