English(EN) GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion

GTA方法使用先几何后外观的扩散模型生成3D世界

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-13 03:43

研究人员推出了一种名为GTA的新方法，用于从单个图像生成3D世界。与以往常常优先考虑外观而非结构的方法不同，GTA首先生成场景的几何布局，然后合成其外观。这个两阶段的视频扩散模型过程旨在提高结构保真度和跨视图一致性。实验表明，GTA在准确性和视觉质量方面优于现有方法，并且还可以增强其他3D生成流程。 AI

影响引入了一种新颖的3D世界生成方法，该方法优先考虑几何准确性，有望改进空间智能和自动驾驶领域的应用。

排序理由详细介绍图像到3D世界生成新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

arXiv

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zhibo Chen · 2026-05-13 03:43

GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion

Recent developments in generative models and large-scale datasets have substantially advanced 3D world generation, facilitating a broad range of domains including spatial intelligence, embodied intelligence, and autonomous driving. While achieving remarkable progress, existing ap…

报道来源 [1]

GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion

相关实体

相关话题