研究人员开发了TokTalk系统,可以直接从先进大语言模型(LLM)生成的音频Token生成富有表现力的实时面部动画。这种方法绕过了传统的语音识别和合成等多个阶段的处理过程,旨在创造更自然、响应更快的虚拟形象表演。TokTalk利用了一个新颖的数据集和一个基于块的条件流匹配模型,在感知研究中展示了具有竞争力的延迟和卓越的质量。 AI
影响 通过直接使用大语言模型(LLM)的音频Token,实现了更自然、响应更快的虚拟形象表演。
排序理由 该集群包含一篇详细介绍生成面部动画新系统的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →