English(EN) Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence

Tango3D模型将二维图像与三维点云对齐，实现详细对应

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 12:01

研究人员推出了Tango3D，一个旨在弥合二维图像与三维点云之间差距的新型基础模型。与以往专注于全局对齐的模型不同，Tango3D建立了细粒度的像素到点对应以及更广泛的语义对齐。这是通过在共享空间中将图像编码为二维斑块，将点云编码为三维标记来实现的，利用了具有几何感知能力的骨干网络和预训练的三维VAE。该模型采用渐进式训练策略来平衡密集和全局目标，从而能够实现广泛的下游三维应用。 AI

影响通过建立详细的像素到点对齐，实现了对三维数据更丰富的语义理解和更广泛的下游应用。

排序理由这是一篇描述新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

Tango3D
VAE

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Wenhan Luo · 2026-05-19 12:01

Tango3D: 迈向全局与局部二维-三维对应关系的对齐

Existing 3D foundation models typically align point clouds to frozen vision-language spaces like CLIP, which achieve strong cross-modal retrieval by compressing 3D shape into a global vector. However, this global-only alignment cannot establish fine-grained pixel-to-point corresp…

报道来源 [1]

Tango3D: 迈向全局与局部二维-三维对应关系的对齐

相关实体

相关话题