研究人员开发了ReFree-S2V,一个用于生成逼真的同步语音视频动画的新框架。该方法使用流匹配模型和多级语音表示来确保准确的唇部同步和自然的面部表情。为了改善头部运动,采用了无奖励强化学习方案,避免了昂贵的人工标注或手工指标的需要。实验表明,ReFree-S2V在唇部同步准确性的定量评估和自然度的定性评估方面均优于现有方法。 AI
影响 这项研究推动了同步语音视频生成技术的发展,有望改进虚拟化身和数字通信工具。
排序理由 这是一篇详细介绍新AI模型和方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →