研究人员开发了 Flex4DHuman,这是一种新颖的扩散模型,能够从单目或稀疏多视角视频中重建动态 4D 人体模型。该模型基于 Wan 2.1 1.3B 文本到视频架构构建,不需要骨骼或深度图等显式几何先验。相反,它使用相对相机姿态条件和独特的五轴位置编码来生成同步的密集多视角视频,然后可以将其与 4D Gaussian Splatting 一起用于详细的 4D 重建。Flex4DHuman 在基准数据集上展示了卓越的性能,并显示出在游戏、AR/VR 和视频重拍等应用中的潜力。 AI
影响 能够从随意拍摄的视频中大规模创建 4D 内容,可能对 AR/VR 和游戏行业产生影响。
排序理由 这是一篇描述新模型和方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →