PulseAugur
实时 13:13:09

GeoSAM-3D enables 3D scene segmentation from monocular video

研究人员推出 GeoSAM-3D,一种仅使用单目视频对 3D 场景中的物体进行分割的新颖方法。该方法允许用户上传短视频,在单个帧中选择一个物体,并获得传播的 3D 掩码。GeoSAM-3D 通过结合预训练的图像和视频模型与 3D Gaussian Splatting 重建以及独特的图-测地线传播核来实现这一点。 AI

影响 能够从现成的单目视频中实现详细的 3D 场景理解,可能对机器人和 AR/VR 产生影响。

排序理由 该集群包含一篇详细介绍 3D 场景分割新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Arun Sharma ·

    GeoSAM-3D: Geodesic Prompt Propagation for Open-Vocabulary 3D Scene Segmentation from Monocular Video

    arXiv:2606.00447v1 Announce Type: cross Abstract: Open-vocabulary 3D scene segmentation usually assumes RGB-D video, calibrated multi-view imagery, or a reconstructed mesh. GeoSAM-3D studies a lighter setting: a user uploads a short monocular video, clicks or names an object in o…