PulseAugur
实时 06:03:24

CrossFlow 模型直接从潜在空间生成图像

研究人员推出了 CrossFlow,这是一种新颖的跨空间流公式,可将噪声潜在输入直接映射到像素空间图像。该方法通过优化一个预测图像而非潜在位移的单步目标,绕过了对单独解码器的需求。CrossFlow 可以作为独立的潜在空间到像素生成器,也可以作为现有潜在扩散管道的解码器替代品。在 256x256 分辨率的类条件 ImageNet-1k 上进行的实验中,CrossFlow-XL 在单次函数评估中达到了 1.62 的 FID 分数,证明了结合潜在空间效率和直接像素监督的有效性。 AI

影响 这种新颖的跨空间流公式可以提高图像生成模型的效率和质量。

排序理由 该集群包含一篇详细介绍新图像生成方法的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

CrossFlow 模型直接从潜在空间生成图像

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Xiyuan Wang, Xiao Zhang, Yang Li, Ruoxi Jiang, Zhao Zhong, Liefeng Bo, Muhan Zhang ·

    CrossFlow:跨越潜在空间和像素空间的单步生成

    arXiv:2606.19970v1 Announce Type: new Abstract: Most diffusion and flow-matching generators define the prior, probability path, and prediction target in the same representation space. Latent diffusion improves efficiency by moving this path into an autoencoder latent space, but t…

  2. arXiv cs.CV TIER_1 English(EN) · Muhan Zhang ·

    CrossFlow:跨越潜空间和像素空间的单步生成

    Most diffusion and flow-matching generators define the prior, probability path, and prediction target in the same representation space. Latent diffusion improves efficiency by moving this path into an autoencoder latent space, but the final sample is still produced by a separatel…