PulseAugur
实时 22:18:51
English(EN) Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

新的SimVA框架通过时空分析增强视频动作识别能力

研究人员开发了一个名为相似性体积聚合(SimVA)的新框架,用于视频中的开放词汇动作识别。该方法从块级视觉-文本相似性构建了一个密集的4D时空相似性体积,保留了全局聚合方法中常丢失的局部细节。SimVA通过空间和运动感知的调制来优化此体积,并使用基于Mamba的时间聚合来模拟演变模式,有效地将CLIP的能力转移到视频分析中。 AI

影响 这一新框架可以提高AI系统理解视频中动作的准确性和粒度,从而实现更复杂的视频分析应用。

排序理由 该集群包含一篇详细介绍视频动作识别新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Yerim So, Jiyeong Kim, Jiwon Yoon, Dongbo Min ·

    Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

    arXiv:2605.23288v1 Announce Type: new Abstract: Recent Open-Vocabulary Action Recognition (OVAR) methods typically aggregate visual features into a global representation before computing text alignment, a process that obscures local patch information and fine-grained spatio-tempo…

  2. arXiv cs.CV TIER_1 English(EN) · Dongbo Min ·

    Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

    Recent Open-Vocabulary Action Recognition (OVAR) methods typically aggregate visual features into a global representation before computing text alignment, a process that obscures local patch information and fine-grained spatio-temporal cues. We propose Similarity Volume Aggregati…