研究人员开发了DualStreamHybrid,一种新颖的视频动作识别双流框架,它利用异构骨干网络处理RGB和光流数据。该方法为RGB帧分配了Vision Transformer (ViT-Tiny/16),为光流分配了MobileNetV2,认识到它们各自的独特性质。该框架在UCF11和UCF50数据集上进行了评估,交叉注意力和加权融合策略显示出有希望的结果,在UCF11上达到了98.12%的准确率。 AI
影响 引入了一种新颖的视频动作识别架构,可能会提高在复杂运动和外观任务上的性能。
排序理由 这是一篇介绍视频动作识别新框架的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →