研究人员推出StreamChar,一个用于在实时流式场景中生成角色音视频的新型框架。该系统将长视域编排与短窗口音视频去噪解耦,利用基于LLM的编排器处理帧对齐音频条件,并使用联合音视频DiT进行局部去噪。StreamChar采用两阶段蒸馏管线以实现高效部署,并结合了进度感知指针和接收块内存等机制,以减轻字幕-音频不对齐和视觉漂移问题,在单个H100 GPU上实现了实时性能。 AI
影响 实现了实时、同步的音视频角色生成,可能对动画和虚拟化身应用产生影响。
排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了一个新的AI驱动内容生成框架。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →