English(EN) Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation

新框架增强了AI说话人头像生成的稳定性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种名为测试时自适应条件（TT-SAC）的新推理框架，以改进音频驱动的说话人头像生成。该方法允许预训练模型在推理过程中调整其条件表示，而无需重新训练或额外的监督。通过将生成器自身的输送回其编码器，TT-SAC在生成的视频中创建了更稳定和一致的身份和运动，从而提高了唇形同步精度和感知质量。 AI

影响在无需重新训练的情况下提高了AI生成的说话人头像视频的稳定性和质量。

排序理由介绍AI模型推理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zhicheng Zhang, Lei Wang, Yu Zhang, Yongsheng Gao · 2026-05-26 04:00

用于稳定音频驱动说话人头生成的测试时自适应条件

arXiv:2605.25488v1 Announce Type: cross Abstract: Audio-driven talking-head generation has achieved remarkable progress with recent models such as AniTalker, FLOAT, and Sonic. Despite their success, most existing approaches rely on a single static reference image to condition the…

报道来源 [1]

用于稳定音频驱动说话人头生成 的测试时自适应条件

相关实体

相关话题

用于稳定音频驱动说话人头生成的测试时自适应条件