研究人员推出了一种新颖的状态空间架构MamBOA,专为视频识别任务设计。该框架不依赖于特定骨干网络,意味着它可以与现有的CNN、Transformer和Mamba架构集成。MamBOA将选择性状态空间递归视为运动合成器,增强了时序推理能力,在Diving48等基准测试中以极低的额外计算成本实现了高精度。 AI
排序理由 该集群描述了一篇关于用于视频识别的新型架构的最新研究论文,该论文已提交至arXiv。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →