研究人员开发了Ex-Omni,一个旨在将三维面部动画生成与全模态大语言模型(OLLMs)集成的开源模型。该模型通过使用语音单元来构建时间结构,并利用隐藏的语音表示来捕捉面部线索,解决了大语言模型离散推理与面部运动连续动态之间的衔接挑战。Ex-Omni旨在通过使OLLMs能够生成同步的语音和三维面部动画,从而改善人机交互,与现有级联方法相比,它展示了更快的生成速度和更好的视听同步效果。 AI
影响 通过将大语言模型生成的语音与三维面部动画同步,实现更自然的人机交互。
排序理由 详细介绍多模态生成新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →