English(EN) Multi-view Pyramid Transformer: Look Coarser to See Broader

多视角金字塔Transformer高效重建3D场景

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员推出了一种名为多视角金字塔Transformer（MVP）的新型架构，旨在从大量图像中重建大型3D场景。MVP采用双重层次结构：一种从局部到全局的视角间结构，扩展了模型的视野；一种从精细到粗糙的视角内结构，聚合了详细的空间信息。这种方法能够实现高效且丰富的表示，有助于快速重建复杂场景，尤其是在与3D高斯溅射（3D Gaussian Splatting）结合时。 AI

影响引入了一种高效重建3D场景的新方法，可能改进计算机视觉和图形学中的应用。

排序理由这是一篇描述新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park · 2026-06-02 04:00

Multi-view Pyramid Transformer: Look Coarser to See Broader

arXiv:2512.07806v2 Announce Type: replace Abstract: We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``lookin…

报道来源 [1]

Multi-view Pyramid Transformer: Look Coarser to See Broader

相关实体

相关话题