研究人员开发了基于Transformer的新模型,用于从视觉输入进行3D场景重建。DVGT(Driving Visual Geometry Transformer)在无需显式几何先验的情况下,从无姿态的多视图图像中重建密集3D点图,并在多样化的驾驶数据集上进行训练。VG^2GT通过使用冻结的视觉基础模型和体素模块直接回归高斯原始参数来增强高斯溅射,从而降低了训练成本并优于现有方法。QVGGT通过引入量化框架,选择性地应用混合精度和令牌过滤,解决了大型Transformer模型的部署挑战,从而在边缘设备上实现高保真3D感知。 AI
影响 3D重建和模型压缩的进步使得在自动驾驶和边缘设备中能够实现更复杂的AI应用。
排序理由 多篇研究论文介绍了用于3D场景重建和优化技术的新型Transformer模型。
- QVGGT
- VGGT
- DVGT
- Gaussian splatting
- KITTI
- nuScenes
- Replica
- ScanNet
- VG^2GT
- Visual Foundation Model
- Visual Geometry Transformer
- Waymo
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →