新框架通过表情控制增强3D说话人头部的真实感

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了EmoZone-Talker，一个用于从音频生成逼真3D说话人头部的全新框架。该系统通过显式解耦面部运动的空间和时间方面来应对控制面部表情的挑战。它使用一种称为Synergy Zones with Prioritized Attention Bias (SZ-PAB) 的新方法来管理不同模态的贡献，并使用Channel-Independent Temporal AU Encoder (CIT-AE) 来模拟一致的面部动作单元动力学，从而提高了表情的准确性和时间连贯性。 AI

影响为3D说话人头模型中更具可控性和更逼真的面部表情合成引入了一种新颖的方法。

排序理由该集群包含一篇学术论文，详细介绍了AI驱动的3D说话人头合成的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Tingting Chen, Shaojun Wang, Huaye Zhang, Diqiong Jiang, Chenglizhao Chen · 2026-06-16 04:00

EmoZone-Talker: Regional Semantic Control of Audio-Driven 3DGS Talking Heads via Facial Action Units

arXiv:2606.15848v1 Announce Type: new Abstract: 3D Gaussian Splatting (3DGS) has shown strong potential for high-fidelity talking head synthesis. However, enabling fine-grained, interpretable, and editable facial expression control remains fundamentally challenging due to intrins…

报道来源 [1]

EmoZone-Talker: Regional Semantic Control of Audio-Driven 3DGS Talking Heads via Facial Action Units

相关实体

相关话题