研究人员开发了RayPE,一种用于视频扩散Transformer的新型位置编码方法,可增强三维感知能力。与使用相机网格坐标的现有方法不同,RayPE结合了6D Plucker坐标来捕捉相机射线之间的几何关系。该方法将注意力分数分解为内容和几何项,两者都被发现对性能至关重要。该方法轻量级,为现有模型增加的参数不到0.1%,并在相机可控性、帧间三维一致性以及整体视频质量方面取得了改进。 AI
影响 增强视频生成模型的三维感知和一致性,可能提高真实感和可控性。
排序理由 该集群包含一篇详细介绍视频生成新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →