一个新模型,是先前迭代的一个8亿参数版本,已被开发出来,可以将图像变成一个可控角色。该模型将上下文窗口增加到12个潜在帧,提高了其前代的稳定性,尽管一致性仍然是一个挑战。该架构与先前版本类似,具有扩展的MLP和使用扩散强制从头开始训练的去噪组件。该模型采用因果扩散方法运行,其中每个帧都经过去噪循环,并添加到KV缓存中,有效地存储了过去的帧。 AI
影响 为拥有消费级硬件的用户带来新的交互式内容和角色生成形式。
排序理由 该项目描述了AI模型将图像转换为可控角色的特定应用,属于AI工具范畴。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →