研究人员评估了三个开源图像编辑模型——Qwen-Image-Edit、FireRed-Image-Edit 和 LongCat-Image-Edit——在没有任何微调的情况下进行零样本视觉学习的能力。研究发现,这些模型在深度估计、表面法线估计和语义分割等任务上表现出显著的视觉理解能力。值得注意的是,FireRed-Image-Edit 在表面法线估计任务上的表现与一个指令微调模型相当,而 Qwen-Image-Edit 和 LongCat-Image-Edit 分别在深度估计和分割任务上取得了优异的成绩。研究结果表明,零样本视觉能力可能是图像编辑预训练的涌现特性。 AI
影响 证明了开源图像编辑模型具备零样本视觉能力,可能减少对特定任务微调的需求。
排序理由 这是一篇评估开源模型在视觉任务上表现的研究论文。
- Cityscapes
- DIODE
- FireRed-Image-Edit
- LongCat-Image-Edit
- Nano Banana Pro
- NYUv2
- Qwen-Image-Edit
- Vision Banana
- Veo 3
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →