研究人员开发了“Lip Forcing”,一种用于实时视频到视频唇形同步的新型自回归扩散方法。该技术将一个大型的140亿参数模型提炼成更小、更快的学生模型,仅需两个去噪步骤即可生成同步的唇形运动。该13亿参数的学生模型在31 FPS下实现了实时性能,在保持视觉质量的同时,速度显著优于之前的扩散模型。 AI
影响 为视频应用实现实时、高质量的唇形同步,可能影响内容创作和虚拟通信。
排序理由 该集群包含一篇详细介绍人工智能驱动的唇形同步新方法的论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →