GeoSAM-3D enables 3D scene segmentation from monocular video

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员推出 GeoSAM-3D，一种仅使用单目视频对 3D 场景中的物体进行分割的新颖方法。该方法允许用户上传短视频，在单个帧中选择一个物体，并获得传播的 3D 掩码。GeoSAM-3D 通过结合预训练的图像和视频模型与 3D Gaussian Splatting 重建以及独特的图-测地线传播核来实现这一点。 AI

影响能够从现成的单目视频中实现详细的 3D 场景理解，可能对机器人和 AR/VR 产生影响。

排序理由该集群包含一篇详细介绍 3D 场景分割新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Arun Sharma · 2026-06-02 04:00

GeoSAM-3D: Geodesic Prompt Propagation for Open-Vocabulary 3D Scene Segmentation from Monocular Video

arXiv:2606.00447v1 Announce Type: cross Abstract: Open-vocabulary 3D scene segmentation usually assumes RGB-D video, calibrated multi-view imagery, or a reconstructed mesh. GeoSAM-3D studies a lighter setting: a user uploads a short monocular video, clicks or names an object in o…

报道来源 [1]

GeoSAM-3D: Geodesic Prompt Propagation for Open-Vocabulary 3D Scene Segmentation from Monocular Video

相关实体

相关话题