研究人员开发了TAP-JEPA,一种新颖的动作预测模型,在EPIC-KITCHENS-100挑战赛中获得第二名。该模型利用冻结的V-JEPA 2.1特征,使用ViT-G/384编码器和潜在预测器来估计未来的视频token。然后,这些token与观察到的上下文通过注意力探针融合,以预测动作,特别是动词、名词和动词-名词对。该提交的平均Top-5召回率为27.91%,以0.04个百分点的微弱劣势错失头名。 AI
影响 这项研究推进了动作预测能力,可能改进以自我为中心的视频分析和人机交互。
排序理由 这是一篇详细介绍新颖模型及其在特定基准上性能的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →