VGGT-Ω 模型提升场景重建的准确性和效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 17:59

研究人员推出 VGGT-Ω，一个新模型，与前代 VGGT 相比，显著提高了场景重建的准确性和效率。通过架构修改，该模型减少了 GPU 内存使用，从而能够使用更多监督数据进行训练，并利用大量无标签视频。该模型还包含一种新颖的自监督学习协议和寄存器注意力机制。VGGT-Ω 在多个基准测试中展示了最先进的性能，包括在 Sintel 上相机估计准确率提高了 77%，并有望通过作为空间理解的代理任务来改进视觉-语言-动作模型。 AI

影响在相机估计基准测试中设定了新的 SOTA，有望改进视觉-语言-动作模型。

排序理由该集群包含一篇详细介绍新模型发布及基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 (ET) · Christian Rupprecht · 2026-05-14 17:59

VGGT-$Ω$

Recent feed-forward reconstruction models, such as VGGT, have proven competitive with traditional optimization-based reconstructors while also providing geometry-aware features useful for other tasks. Here, we show that the quality of these models scales predictably with model an…

报道来源 [1]

VGGT-$Ω$

相关实体

相关话题