PulseAugur
实时 06:44:32

VGGT-Ω 模型提升场景重建的准确性和效率

研究人员推出 VGGT-Ω,一个新模型,与前代 VGGT 相比,显著提高了场景重建的准确性和效率。通过架构修改,该模型减少了 GPU 内存使用,从而能够使用更多监督数据进行训练,并利用大量无标签视频。该模型还包含一种新颖的自监督学习协议和寄存器注意力机制。VGGT-Ω 在多个基准测试中展示了最先进的性能,包括在 Sintel 上相机估计准确率提高了 77%,并有望通过作为空间理解的代理任务来改进视觉-语言-动作模型。 AI

影响 在相机估计基准测试中设定了新的 SOTA,有望改进视觉-语言-动作模型。

排序理由 该集群包含一篇详细介绍新模型发布及基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

VGGT-Ω 模型提升场景重建的准确性和效率

报道来源 [1]

  1. arXiv cs.CV TIER_1 (ET) · Christian Rupprecht ·

    VGGT-$Ω$

    Recent feed-forward reconstruction models, such as VGGT, have proven competitive with traditional optimization-based reconstructors while also providing geometry-aware features useful for other tasks. Here, we show that the quality of these models scales predictably with model an…