一篇新的研究论文探讨了视频基础模型是否具备对直观物理学的理解。该研究使用IntPhys2和Minimal Video Pairs等基准测试,探测了V-JEPA、VideoMAE和LTX-Video等模型的冻结表征。结果表明,V-JEPA表现最佳,尤其是在时间动态探测方面,而VideoMAE具有竞争力,LTX-Video则显示出较弱但存在的信号。研究还发现,物理学知识在这些模型的中间到后期层中更容易被访问。 AI
影响 揭示了视频模型中涌现的物理学理解能力,可能提高其与现实世界交互的能力。
排序理由 分析模型能力的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →