研究人员开发了 DenseStep2M,一个新颖的管道,可以在无需训练数据的情况下自动从教学视频中提取详细的程序性标注。该系统分割视频、过滤无关内容,并使用 Qwen2.5-VL 和 DeepSeek-R1 等先进的多模态和大型语言模型来生成结构化的、带时间戳的步骤。由此产生的 DenseStep2M 数据集包含约 100,000 个视频和 200 万个步骤,显著提高了密集视频字幕和时间定位等任务的性能。 AI
影响 通过提供大规模、详细的程序性标注,实现了更复杂的视频理解和推理。
排序理由 介绍用于视频标注的新数据集和方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →