研究人员推出了 Avatar V,一个用于生成高度逼真且行为可识别的虚拟形象视频的新框架。与依赖静态图像的先前方法不同,Avatar V 以完整的视频参考为条件,以捕捉说话节奏和手势等动态特征。该系统利用稀疏注意力机制和专用的运动流来实现高保真结果,性能优于 Seedance 2.0 和 Kling O3 Pro 等现有模型。 AI
影响 通过以完整的视频参考为条件以实现行为逼真度,为虚拟形象视频生成树立了新标准。
排序理由 该集群包含一篇详细介绍新人工智能模型和框架的研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →