English(EN) Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

新型Ex-Omni模型将三维面部动画与大语言模型集成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 04:00

研究人员开发了Ex-Omni，一个旨在将三维面部动画生成与全模态大语言模型（OLLMs）集成的开源模型。该模型通过使用语音单元来构建时间结构，并利用隐藏的语音表示来捕捉面部线索，解决了大语言模型离散推理与面部运动连续动态之间的衔接挑战。Ex-Omni旨在通过使OLLMs能够生成同步的语音和三维面部动画，从而改善人机交互，与现有级联方法相比，它展示了更快的生成速度和更好的视听同步效果。 AI

影响通过将大语言模型生成的语音与三维面部动画同步，实现更自然的人机交互。

排序理由详细介绍多模态生成新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu · 2026-06-12 04:00

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

arXiv:2602.07106v2 Announce Type: replace-cross Abstract: Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet extending them to jointly produce speech and 3D facial animation remains largely unexplored despite its importance for natu…

报道来源 [1]

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

相关话题