研究人员推出了一种新颖的自回归框架OmniGen-AR,用于通用图像生成。该统一模型可以从多种输入合成图像,包括文本、分割图、深度信息,甚至用于编辑或视频预测的现有图像。为防止条件令牌影响内容令牌,该框架采用了分离因果注意力(DCA)技术,该技术在训练期间分离注意力机制。OmniGen-AR在GenEval和VBench等基准测试中展示了最先进的性能。 AI
影响 引入了一个统一的多模态图像生成框架,有望简化复杂的视觉合成任务。
排序理由 这是一篇描述新模型和方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →