研究人员开发了ReFree-S2V,一个用于生成逼真同步语音视频动画的新框架。该模型使用多级语音表示来捕捉语音信息和韵律信息,从而实现精确的唇部同步和自然的面部表情。此外,它还采用了一种新颖的无奖励强化学习方法,无需昂贵的人工标注或手工设计的指标即可改进头部运动。实验表明,ReFree-S2V在唇部同步准确性的定量评估和自然度的定性评估方面均优于现有方法。 AI
影响 这项研究推动了逼真同步语音视频生成技术的发展,有望改进虚拟化身和数字助手。
排序理由 该集群描述了一篇详细介绍新AI视频生成框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →