PulseAugur
实时 14:03:53
English(EN) POMA-3D: The Point Map Way to 3D Scene Understanding

POMA-3D模型从点图学习自监督三维场景理解

研究人员推出了POMA-3D,一种新颖的自监督三维表示模型,它利用点图将三维坐标编码到结构化的二维网格上。该方法通过视图到场景的对齐策略,将二维基础模型的先验知识迁移到三维理解中。该模型还采用联合嵌入预测架构POMA-JEPA,以确保跨不同视图的几何一致性特征。实验表明,POMA-3D仅使用几何输入,即可作为各种三维任务(包括问答和导航)的骨干。 AI

影响 引入了一种利用二维先验知识进行三维场景理解的新方法,有望提高导航和检索等任务的性能。

排序理由 这是一篇介绍三维场景理解新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

POMA-3D模型从点图学习自监督三维场景理解

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Ye Mao, Weixun Luo, Ranran Huang, Junpeng Jing, Krystian Mikolajczyk ·

    POMA-3D:点图法实现3D场景理解

    arXiv:2511.16567v3 Announce Type: replace Abstract: In this paper, we introduce POMA-3D, the first self-supervised 3D representation model learned from point maps. Point maps encode explicit 3D coordinates on a structured 2D grid, preserving global 3D geometry while remaining com…