研究人员开发了 TrAction,一种新颖的 Transformer 架构,用于使用稀疏点轨迹而非密集视频进行动作识别。该方法旨在减少依赖外观或背景线索的传统模型中存在的偏差。TrAction 在 Something-Something V2 和 EPIC-Kitchens-100 等基准测试中取得了有竞争力的准确率,并且与其他模型融合后,性能得到进一步提升。 AI
影响 为视频动作识别提供了一种更高效、偏差更小的方法,有望提高现实世界应用中的性能。
排序理由 该集群包含一篇详细介绍新模型架构和实验结果的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →