English(EN) POMA-3D: The Point Map Way to 3D Scene Understanding

POMA-3D模型从点图学习自监督三维场景理解

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 04:00

研究人员推出了POMA-3D，一种新颖的自监督三维表示模型，它利用点图将三维坐标编码到结构化的二维网格上。该方法通过视图到场景的对齐策略，将二维基础模型的先验知识迁移到三维理解中。该模型还采用联合嵌入预测架构POMA-JEPA，以确保跨不同视图的几何一致性特征。实验表明，POMA-3D仅使用几何输入，即可作为各种三维任务（包括问答和导航）的骨干。 AI

影响引入了一种利用二维先验知识进行三维场景理解的新方法，有望提高导航和检索等任务的性能。

排序理由这是一篇介绍三维场景理解新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Ye Mao, Weixun Luo, Ranran Huang, Junpeng Jing, Krystian Mikolajczyk · 2026-05-07 04:00

POMA-3D：点图法实现3D场景理解

arXiv:2511.16567v3 Announce Type: replace Abstract: In this paper, we introduce POMA-3D, the first self-supervised 3D representation model learned from point maps. Point maps encode explicit 3D coordinates on a structured 2D grid, preserving global 3D geometry while remaining com…

报道来源 [1]

POMA-3D：点图法实现3D场景理解

相关实体

相关话题