研究人员,包括由何恺明领导并主要由本科生组成的团队,推出了一种新颖的文本到图像生成模型MiniT2I。该模型以显著更少的参数(2.58亿)和更低的训练成本取得了具有竞争力的结果,与标准的ImageNet实验相当。MiniT2I采用了一种新的MM-JiT架构,直接在像素空间操作,无需VAE,并通过移除AdaLN等机制简化了扩散过程,这些机制在其他大型文本到图像模型中很常见。 AI
影响 展示了一条更高效的文本到图像生成路径,可能降低研发门槛。
排序理由 详细介绍新模型架构及其性能的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Google DeepMind
- Hanhong Zhao
- ImageNet
- JiT
- Kaiming He
- Kangyang Zhou
- Linrui Ma
- MiniT2I
- MIT
- MM-JiT
- ResNet
- VAE
- Xianbang Wang
- Yiyang Lu
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →