实体 video diffusion transformers

video diffusion transformers

PulseAugur coverage of video diffusion transformers — every cluster mentioning video diffusion transformers across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_111635 · Jun 25 · 17:51

RayPE编码提升视频生成模型的三维感知能力

研究人员开发了RayPE，一种用于视频扩散Transformer的新型位置编码方法，可增强三维感知能力。与使用相机网格坐标的现有方法不同，RayPE结合了6D Plucker坐标来捕捉相机射线之间的几何关系。该方法将注意力分数分解为内容和几何项，两者都被发现对性能至关重要。该方法轻量级，为现有模型增加的参数不到0.1%，并在相机可控性、帧间三维一致性以及整体视频质量方面取得了改进。
RESEARCH · CL_77417 · Jun 8 · 04:00

研究人员通过可编辑的时间和交互式控件增强视频扩散 Transformer

两篇新研究论文介绍了增强视频扩散 Transformer 的控制和交互性的方法。第一篇论文提出了一种时间控制方法，可以在不改变核心架构的情况下，对预训练模型中的运动速度和时间动态进行显式编辑。第二篇论文介绍了 Real-Time AttentionBender，这是一个能够对视频扩散 Transformer 的内部组件进行细粒度、交互式操作的工具，为艺术家提供了对生成过程更深入的理解和创作自主权。
RESEARCH · CL_53960 · May 26 · 17:43

PARE方法通过自适应路由提高视频生成效率

研究人员推出了一种新颖的方法PARE，用于提高视频扩散 Transformer (DiTs) 的计算效率。PARE通过结构感知剪枝和输入自适应路由联合压缩模型宽度和深度，以解决DiTs的高计算需求。该系统根据注意力头的空间或时间作用智能地剪枝注意力头，并采用轻量级路由器根据去噪时间步和视觉内容动态选择要执行的块。在Wan2.1-14B数据集上进行图像到视频和文本到视频生成的实验表明，PARE在保持视频质量的同时显著降低了每步计算量。

RayPE编码提升视频生成模型的三维感知能力

研究人员通过可编辑的时间和交互式控件增强视频扩散 Transformer

PARE方法通过自适应路由提高视频生成效率