PulseAugur
实时 12:07:19

RayPE编码提升视频生成模型的三维感知能力

研究人员开发了RayPE,一种用于视频扩散Transformer的新型位置编码方法,可增强三维感知能力。与使用相机网格坐标的现有方法不同,RayPE结合了6D Plucker坐标来捕捉相机射线之间的几何关系。该方法将注意力分数分解为内容和几何项,两者都被发现对性能至关重要。该方法轻量级,为现有模型增加的参数不到0.1%,并在相机可控性、帧间三维一致性以及整体视频质量方面取得了改进。 AI

影响 增强视频生成模型的三维感知和一致性,可能提高真实感和可控性。

排序理由 该集群包含一篇详细介绍视频生成新方法的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

RayPE编码提升视频生成模型的三维感知能力

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Minghao Yin, Jiahao Lu, Wenbo Hu, Wang Zhao, Shan Ying, Kai Han ·

    RayPE:用于3D感知视频生成的Ray-Space位置编码

    arXiv:2606.27345v1 Announce Type: new Abstract: Modern video diffusion transformers position their tokens through RoPE on the (u,v,t) axes -- a description of the camera's sampling grid that says nothing about the 3D structure of the scene. We observe that the geometric relation …

  2. arXiv cs.CV TIER_1 English(EN) · Kai Han ·

    RayPE:用于3D感知视频生成的Ray-Space位置编码

    Modern video diffusion transformers position their tokens through RoPE on the (u,v,t) axes -- a description of the camera's sampling grid that says nothing about the 3D structure of the scene. We observe that the geometric relation between two camera rays is captured by the Pluck…