研究人员开发了一个名为相似性体积聚合(SimVA)的新框架,用于视频中的开放词汇动作识别。该方法从块级视觉-文本相似性构建了一个密集的4D时空相似性体积,保留了全局聚合方法中常丢失的局部细节。SimVA通过空间和运动感知的调制来优化此体积,并使用基于Mamba的时间聚合来模拟演变模式,有效地将CLIP的能力转移到视频分析中。 AI
影响 这一新框架可以提高AI系统理解视频中动作的准确性和粒度,从而实现更复杂的视频分析应用。
排序理由 该集群包含一篇详细介绍视频动作识别新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →