研究人员推出了POMA-3D,一种新颖的自监督三维表示模型,它利用点图将三维坐标编码到结构化的二维网格上。该方法通过视图到场景的对齐策略,将二维基础模型的先验知识迁移到三维理解中。该模型还采用联合嵌入预测架构POMA-JEPA,以确保跨不同视图的几何一致性特征。实验表明,POMA-3D仅使用几何输入,即可作为各种三维任务(包括问答和导航)的骨干。 AI
影响 引入了一种利用二维先验知识进行三维场景理解的新方法,有望提高导航和检索等任务的性能。
排序理由 这是一篇介绍三维场景理解新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →