English(EN) Text-Conditional JEPA for Learning Semantically Rich Visual Representations

苹果研究人员推出文本条件JEPA以改进视觉表征学习

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-05 00:26

研究人员推出了一种新颖的视觉自监督学习方法——文本条件JEPA（TC-JEPA），该方法利用图像标题来增强语义理解。通过使用文本指导掩码图像特征的预测，TC-JEPA旨在克服纯视觉预测方法的局限性。该技术在提高下游任务性能、训练稳定性和扩展性方面显示出潜力，提供了一种新的视觉-语言预训练范式。 AI

影响引入了一种新的视觉-语言预训练范式，在需要细粒度视觉理解的任务上表现优于对比方法。

排序理由该集群包含一篇详细介绍视觉表征学习新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

Apple Machine Learning Research TIER_1 English(EN) · 2026-05-07 00:00

用于学习语义丰富视觉表示的文本条件JEPA

Image-based Joint-Embedding Predictive Architecture (I-JEPA) offers a promising approach to visual self-supervised learning through masked feature prediction. However with the inherent visual uncertainty at masked positions, feature prediction remains challenging and may fail to …
arXiv cs.CV TIER_1 English(EN) · Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind · 2026-05-06 04:00

用于学习语义丰富视觉表征的文本条件JEPA

arXiv:2605.03245v1 Announce Type: cross Abstract: Image-based Joint-Embedding Predictive Architecture (I-JEPA) offers a promising approach to visual self-supervised learning through masked feature prediction. However with the inherent visual uncertainty at masked positions, featu…
arXiv cs.CV TIER_1 English(EN) · Josh Susskind · 2026-05-05 00:26

用于学习语义丰富视觉表示的文本条件JEPA

Image-based Joint-Embedding Predictive Architecture (I-JEPA) offers a promising approach to visual self-supervised learning through masked feature prediction. However with the inherent visual uncertainty at masked positions, feature prediction remains challenging and may fail to …

报道来源 [3]

用于学习语义丰富视觉表示的文本条件JEPA

用于学习语义丰富视觉表征的文本条件JEPA

用于学习语义丰富视觉表示的文本条件JEPA

相关实体

相关话题