PulseAugur
实时 04:44:07
English(EN) MotionAtlas: Detailed Region Captioning for Motion-Centric Videos

MotionAtlas 系统为视频提供详细区域描述

研究人员推出 MotionAtlas,一个专为以动作为中心的视频进行详细描述的新颖系统。该系统包括一个包含 2,073 个多项选择题的新基准数据集、一个用于生成高质量训练数据的可扩展管道以及一系列 Video-MLLM。MotionAtlas 专注于区域感知运动描述,能够精确描述特定时空区域内的运动,以改进评估并减少视觉混乱。该系统通过 MotionAtlas-4B 等模型展示了其性能,该模型在 Qwen3-VL-4B 等现有模型上取得了显著的提升。 AI

影响 增强了细粒度的视频理解和评估,可能改进需要详细运动分析的应用。

排序理由 该集群描述了一篇介绍视频描述新系统和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

MotionAtlas 系统为视频提供详细区域描述

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Weisong Liu, Haochen Wang, Kuan Gao, Yuhao Wang, Yikang Zhou, Zhongwei Ren, Jacky Mai, Anna Wang, Yanwei Li, Jason Li, Zhaoxiang Zhang ·

    MotionAtlas: Detailed Region Captioning for Motion-Centric Videos

    arXiv:2606.29531v1 Announce Type: cross Abstract: We propose MotionAtlas, a system for detailed captioning of motion-centric videos, comprising (1) a dedicated human-annotated benchmark, (2) a scalable, high-quality pipeline to construct training samples, and (3) a family of powe…