实体 V-JEPA 2.1

V-JEPA 2.1

PulseAugur coverage of V-JEPA 2.1 — every cluster mentioning V-JEPA 2.1 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

9

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

9

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

RESEARCH · CL_128471 · Jul 6 · 10:57

新模型通过整合视觉和状态来增强机器人操作能力

研究人员开发了几种新方法，通过更好地整合视觉信息与机器人的状态和动作来提高机器人操作能力。例如，GeoProp 是一种轻量级适配器，通过将机器人状态投影到图像平面并注入空间先验来对齐本体感觉和视觉。RoboDojo 提供了一个统一的模拟和真实基准，用于评估通用机器人操作策略在各种任务中的表现。DSWAM 引入了一种双系统方法，将世界动作模型执行器与视觉语言规划器相结合，以实现细粒度操作，而 DynaWM 使用专门针对动态物体操作的基于…
TOOL · CL_86914 · Jun 12 · 04:00

V-JEPA 2.1 推进视频和图像自监督学习

研究人员推出了 V-JEPA 2.1，这是一种新的自监督模型，旨在从图像和视频中学习详细的视觉表示。该模型集成了密集预测损失、跨编码器层的分层自监督以及用于统一图像和视频训练的多模态分词器。这些进步使 V-JEPA 2.1 在物体交互预测、动作预测、机器人抓取、导航和深度估计等基准测试中取得了最先进的成果，显著提高了密集视觉理解和世界建模能力。
RESEARCH · CL_68204 · Jun 2 · 05:40

新的AI框架增强放射影像的比较和解读

研究人员开发了用于放射学比较推理的新框架，采用了视觉语言模型。一种方法MedReCo，利用了超过69万张图像的大型数据集，以改进相似病例的检索和变化的长期解读，显示出准确性的大幅提升。另一个框架GLINT，通过采用稀疏门控对齐机制来解决图像发现和报告监督之间的尺度不匹配问题，使其能够专注于相关的图像块，从而实现零样本分割并提高分类和报告生成任务的性能。
TOOL · CL_66161 · Jun 2 · 04:00

FROST-STA 系统预测自我中心视频中的目标交互

研究人员开发了 FROST-STA，一个用于自我中心视频短期预测的系统，旨在预测目标交互。该模型使用来自 ViT-G 主干的冻结密集特征，提取视频和图像 token，然后进行融合和解码以预测目标框、标签和接触时间。FROST-STA 在 Ego4D 短期目标交互预测挑战赛中获得第二名，证明了预训练特征在交互预测中的有效性。
TOOL · CL_66156 · Jun 2 · 04:00

TAP-JEPA模型在动作预测挑战赛中获得第二名

研究人员开发了TAP-JEPA，一种新颖的动作预测模型，在EPIC-KITCHENS-100挑战赛中获得第二名。该模型利用冻结的V-JEPA 2.1特征，使用ViT-G/384编码器和潜在预测器来估计未来的视频token。然后，这些token与观察到的上下文通过注意力探针融合，以预测动作，特别是动词、名词和动词-名词对。该提交的平均Top-5召回率为27.91%，以0.04个百分点的微弱劣势错失头名。
RESEARCH · CL_53959 · May 26 · 17:13

PlayClass管道自动化家禽玩耍行为分类

研究人员开发了PlayClass，这是一个旨在利用自顶向下视频分析自动分类家禽玩耍行为的新管道。该系统采用SAM 3和YOLO引导分块的长期跟踪来提高准确性，并利用图像和视频基础模型的冻结嵌入。虽然手工制作的运动特征显示出有竞争力的结果，但V-JEPA 2.1在与这些特征集成时表现出卓越的性能，达到了77.0的宏平均F1分数。该研究强调了由于运动学特征相似和鸟类之间遮挡而区分玩耍行为的挑战，但为自动动物福利监测提供了有希望的证据。
RESEARCH · CL_41767 · May 20 · 08:42

VISTA 系统凭借物体交互预测能力赢得 Ego4D 挑战赛

研究人员开发了 VISTA，一个用于预测第一人称视角视频中人类与物体交互的新型系统。VISTA 集成了空间物体检测和来自冻结的 V-JEPA 2.1 模型的时序上下文来预测未来的交互。该方法在 EgoVis 2026 年 Ego4D 短期物体交互预测挑战赛中获得第一名。
TOOL · CL_36095 · May 15 · 04:59

潜在视频模型展现出强大的世界建模能力

一项新研究系统地评估了四种前沿视频基础模型：V-JEPA 2.1、V-JEPA 2、VideoPrism 和 VideoMAEv2，涵盖了与其作为世界模型相关的五个鲁棒性维度。研究发现，在特征可辨性、损坏鲁棒性、细粒度辨别、遮挡鲁棒性和时间方向编码方面，潜在预测模型始终优于其他模型。值得注意的是，一个冻结的 V-JEPA 2 主干模型在损坏和遮挡任务上的鲁棒性优于完全微调的模型，这表明潜在预测在鲁棒世界建模方面具有优势。
RESEARCH · CL_21795 · May 7 · 15:05

机器人世界模型从语义潜在空间中获益多于重建潜在空间

一篇新的研究论文探讨了使用潜在扩散模型（LDMs）训练机器人世界模型时不同潜在空间的有效性。该研究将 VAE 和 Cosmos 等以重建为中心的编码器与 V-JEPA 2.1、Web-DINO 和 SigLIP 2 等语义编码器进行了比较。结果表明，虽然重建编码器在视觉保真度方面表现良好，但语义编码器在规划和下游策略任务方面通常提供更优越的性能。