PulseAugur
实时 07:11:11

Lip Forcing 使用扩散模型实现实时视频唇形同步

研究人员开发了“Lip Forcing”,一种用于实时视频到视频唇形同步的新型自回归扩散方法。该技术将一个大型的140亿参数模型提炼成更小、更快的学生模型,仅需两个去噪步骤即可生成同步的唇形运动。该13亿参数的学生模型在31 FPS下实现了实时性能,在保持视觉质量的同时,速度显著优于之前的扩散模型。 AI

影响 为视频应用实现实时、高质量的唇形同步,可能影响内容创作和虚拟通信。

排序理由 该集群包含一篇详细介绍人工智能驱动的唇形同步新方法的论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

    Autoregressive diffusion method for video-to-video lip synchronization achieves real-time performance through distillation and optimized inference schedules.

  2. arXiv cs.CV TIER_1 English(EN) · Seungryong Kim ·

    Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

    Diffusion-based lip synchronization models achieve strong visual quality and audio-visual alignment, but full-sequence bidirectional attention and many denoising steps make them impractical for real-time inference. We present Lip Forcing, to our knowledge the first autoregressive…