English(EN) Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

新的SimVA框架通过时空分析增强视频动作识别能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-22 07:01

研究人员开发了一个名为相似性体积聚合（SimVA）的新框架，用于视频中的开放词汇动作识别。该方法从块级视觉-文本相似性构建了一个密集的4D时空相似性体积，保留了全局聚合方法中常丢失的局部细节。SimVA通过空间和运动感知的调制来优化此体积，并使用基于Mamba的时间聚合来模拟演变模式，有效地将CLIP的能力转移到视频分析中。 AI

影响这一新框架可以提高AI系统理解视频中动作的准确性和粒度，从而实现更复杂的视频分析应用。

排序理由该集群包含一篇详细介绍视频动作识别新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Yerim So, Jiyeong Kim, Jiwon Yoon, Dongbo Min · 2026-05-25 04:00

Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

arXiv:2605.23288v1 Announce Type: new Abstract: Recent Open-Vocabulary Action Recognition (OVAR) methods typically aggregate visual features into a global representation before computing text alignment, a process that obscures local patch information and fine-grained spatio-tempo…
arXiv cs.CV TIER_1 English(EN) · Dongbo Min · 2026-05-22 07:01

Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

Recent Open-Vocabulary Action Recognition (OVAR) methods typically aggregate visual features into a global representation before computing text alignment, a process that obscures local patch information and fine-grained spatio-temporal cues. We propose Similarity Volume Aggregati…

报道来源 [2]

Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

Spatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

相关实体

相关话题