DenseStep2M 管道自动化视频标注以增进理解

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-29 11:51

研究人员开发了 DenseStep2M，一个新颖的管道，可以在无需训练数据的情况下自动从教学视频中提取详细的程序性标注。该系统分割视频、过滤无关内容，并使用 Qwen2.5-VL 和 DeepSeek-R1 等先进的多模态和大型语言模型来生成结构化的、带时间戳的步骤。由此产生的 DenseStep2M 数据集包含约 100,000 个视频和 200 万个步骤，显著提高了密集视频字幕和时间定位等任务的性能。 AI

影响通过提供大规模、详细的程序性标注，实现了更复杂的视频理解和推理。

排序理由介绍用于视频标注的新数据集和方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Mingji Ge, Qirui Chen, Zeqian Li, Weidi Xie · 2026-04-30 04:00

DenseStep2M：一个可扩展、无需训练的密集指令视频标注流水线

arXiv:2604.26565v1 Announce Type: new Abstract: Long-term video understanding requires interpreting complex temporal events and reasoning over procedural activities. While instructional video corpora, like HowTo100M, offer rich resources for model training, they present significa…
arXiv cs.CV TIER_1 English(EN) · Weidi Xie · 2026-04-29 11:51

DenseStep2M：一个可扩展、无需训练的密集指令视频标注流水线

Long-term video understanding requires interpreting complex temporal events and reasoning over procedural activities. While instructional video corpora, like HowTo100M, offer rich resources for model training, they present significant challenges, including noisy ASR transcripts a…

报道来源 [2]

DenseStep2M：一个可扩展、无需训练的密集指令视频标注流水线

DenseStep2M：一个可扩展、无需训练的密集指令视频标注流水线

相关实体

相关话题