研究人员推出了 FireRed-Image-Edit,这是一款用于基于指令的图像编辑的扩散 transformer 模型。该模型利用了庞大的 16 亿样本训练语料库,该语料库经过精心策划和筛选,包含超过 1000 万个高质量的图像生成和编辑任务配对。FireRed-Image-Edit 采用了多阶段训练流程,并引入了数据效率和优化的新颖技术,包括非对称梯度优化和可微分一致性损失。其性能在新建立的 REDEdit-Bench 上得到了验证,该基准涵盖了 15 个编辑类别,并在该基准上展示了与现有系统相比具有竞争力的结果。 AI
影响 引入了一个新的基于指令的图像编辑基准和模型,有可能提高性能并提供新的评估标准。
排序理由 该集群描述了一份技术报告,详细介绍了在 arXiv 上发布的新模型和基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →