研究人员开发了一个新的框架,可以根据单个图像和音频输入生成逼真的人物动画。该方法采用两阶段流程,首先通过整合外观先验和深度线索来建模潜在运动特征,然后采用Mamba增强的扩散模型从音频和源图像预测这些特征。该方法在一个大型数据集上进行了训练,据报道在诸如说话人头合成等应用中的准确性、自然度和时间连贯性方面设定了新的最先进水平。 AI
影响 这项研究推动了AI在根据有限输入生成逼真人物动画方面的能力,可能对虚拟化身和内容创作等领域产生影响。
排序理由 该集群包含一篇详细介绍AI驱动动画新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →