美团-Longcat 发布了 LongCat-Video-Avatar 1.5,这是一个用于音频驱动的真人视频生成的开源框架。此升级版本改进了 Whisper-Large 音频编码器,以实现更自然的唇形同步,并增强了身份和时间连贯性。该模型支持 AT2V 和 ATI2V 等多种任务,可泛化到动漫和动物等各种风格,并提供高效的 8 步推理。 AI
影响 能够从音频创建各种虚拟人视频,可能影响内容创作和虚拟交互。
排序理由 该集群描述了一个具有技术细节和评估指标的开源模型框架的发布。
在 Hugging Face Trending Models 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →