PulseAugur
实时 14:44:26

TAP-JEPA模型在动作预测挑战赛中获得第二名

研究人员开发了TAP-JEPA,一种新颖的动作预测模型,在EPIC-KITCHENS-100挑战赛中获得第二名。该模型利用冻结的V-JEPA 2.1特征,使用ViT-G/384编码器和潜在预测器来估计未来的视频token。然后,这些token与观察到的上下文通过注意力探针融合,以预测动作,特别是动词、名词和动词-名词对。该提交的平均Top-5召回率为27.91%,以0.04个百分点的微弱劣势错失头名。 AI

影响 这项研究推进了动作预测能力,可能改进以自我为中心的视频分析和人机交互。

排序理由 这是一篇详细介绍新颖模型及其在特定基准上性能的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Chaoyang Wang, Lexuan Xu ·

    TAP-JEPA: Frozen Future-Latent Probing and Two-Stage Score Fusion for EPIC-KITCHENS-100 Action Anticipation

    arXiv:2606.00662v1 Announce Type: new Abstract: This report presents TAP-JEPA, our runner-up submission to the EPIC-KITCHENS-100 (EK-100) Action Anticipation Challenge at EgoVis 2026. The task is to anticipate the next verb, noun, and verb-noun action from an egocentric clip that…