PulseAugur
实时 12:44:47

美团-Longcat 发布开源虚拟人视频生成器

美团-Longcat 发布了 LongCat-Video-Avatar 1.5,这是一个用于音频驱动的真人视频生成的开源框架。此升级版本改进了 Whisper-Large 音频编码器,以实现更自然的唇形同步,并增强了身份和时间连贯性。该模型支持 AT2V 和 ATI2V 等多种任务,可泛化到动漫和动物等各种风格,并提供高效的 8 步推理。 AI

影响 能够从音频创建各种虚拟人视频,可能影响内容创作和虚拟交互。

排序理由 该集群描述了一个具有技术细节和评估指标的开源模型框架的发布。

在 Hugging Face Trending Models 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

美团-Longcat 发布开源虚拟人视频生成器

报道来源 [2]

  1. Hugging Face Trending Models TIER_1 (CA) · meituan-longcat ·

    美团-longcat/LongCat-Video-Avatar-1.5

    0 downloads · 132 likes

  2. r/StableDiffusion TIER_2 English(EN) · /u/Turbulent_Corner9895 ·

    LongCat-Video-Avatar 1.5 发布

    <table> <tr><td> <a href="https://www.reddit.com/r/StableDiffusion/comments/1tm5oxh/longcatvideoavatar_15_release/"> <img alt="LongCat-Video-Avatar 1.5 Release" src="https://preview.redd.it/j7ay6s16j13h1.png?width=640&amp;crop=smart&amp;auto=webp&amp;s=e2eac6efeee2e3d8dc34d88c058…