研究人员推出了OmniVTG,这是一个大规模数据集和训练范式,旨在改进多模态大语言模型(MLLMs)的开放世界视频时序定位(VTG)。该数据集采用新颖的流程来识别和收集包含代表性不足概念的视频,并采用以字幕为中心的策略进行高质量标注。此外,还提出了一种自校正思维链(CoT)训练方法,该方法利用MLLMs的理解能力来优化预测,在现有基准和新的OmniVTG数据集上均取得了最先进的性能。 AI
影响 新的数据集和训练范式可能会提高多模态模型根据文本查询准确本地化视频片段的能力。
排序理由 该集群包含两篇学术论文,详细介绍了用于视频时序定位的新数据集和训练方法。
- arXiv
- Computer Vision
- MLLMs
- Multimodal Large Language Models
- OmniVTG
- Video Temporal Grounding
- Chain-of-Thought
- Self-Correction
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →