TAP-JEPA模型在动作预测挑战赛中获得第二名

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了TAP-JEPA，一种新颖的动作预测模型，在EPIC-KITCHENS-100挑战赛中获得第二名。该模型利用冻结的V-JEPA 2.1特征，使用ViT-G/384编码器和潜在预测器来估计未来的视频token。然后，这些token与观察到的上下文通过注意力探针融合，以预测动作，特别是动词、名词和动词-名词对。该提交的平均Top-5召回率为27.91%，以0.04个百分点的微弱劣势错失头名。 AI

影响这项研究推进了动作预测能力，可能改进以自我为中心的视频分析和人机交互。

排序理由这是一篇详细介绍新颖模型及其在特定基准上性能的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Chaoyang Wang, Lexuan Xu · 2026-06-02 04:00

TAP-JEPA：用于EPIC-KITCHENS-100动作预测的冻结未来潜在探测和两阶段分数融合

arXiv:2606.00662v1 Announce Type: new Abstract: This report presents TAP-JEPA, our runner-up submission to the EPIC-KITCHENS-100 (EK-100) Action Anticipation Challenge at EgoVis 2026. The task is to anticipate the next verb, noun, and verb-noun action from an egocentric clip that…

报道来源 [1]

TAP-JEPA：用于EPIC-KITCHENS-100动作预测的冻结未来潜在探测和两阶段分数融合

相关话题