研究人员开发了一种名为TEGU的新方法,用于视频中的零样本时序动作定位。该方法利用大型语言模型和字幕的文本信息,以提高动作的细粒度区分能力,尤其是在标记训练数据稀缺的情况下。TEGU旨在克服现有视觉和语言模型在区分细微动作差异方面的局限性。在THUMOS14和ActivityNet-v1.3数据集上的实验表明,TEGU的表现优于当前不依赖训练数据最先进的方法。 AI
影响 通过利用文本引导实现对未见过的动作的定位,从而改进视频理解能力。
排序理由 该集群包含一篇详细介绍视频分析新方法的学术论文。
- ActivityNet-v1.3
- Benedetta Liberatori
- THUMOS14
- Vision and Language Models
- Zero-Shot Temporal Action Localization
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →