研究人员开发了 LooseControlVideo,一个新颖的文本到视频生成框架,可提供直观的 3D 空间控制。与之前需要密集、逐帧精确引导的方法不同,LooseControlVideo 使用稀疏、定向的 3D 框作为高级布局和轨迹创作的代理。该系统在带有 DNOCS 注释的数据集上对 Wan 2.2 主干进行了微调,从而实现了逼真的遮挡和交互。在 nuScenes 和 HO-3D 等基准测试上的评估显示,与现有基线相比,轨迹准确性和遮挡处理能力有了显著提高。 AI
影响 增强了视频生成中的控制力和真实感,有可能简化 AI 驱动的视频创作的复杂场景创作。
排序理由 该集群描述了一篇详细介绍文本到视频生成新颖框架的研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →