English(EN) From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

新框架支持复杂、多步骤的图像编辑

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-14 17:58

研究人员开发了一个新的框架，用于处理超越简单调整的复杂、多步骤图像编辑任务。他们的方法使用一个规划器将抽象指令分解为更小的步骤，并使用一个编排器来选择合适的编辑工具和区域。然后，一个视觉语言裁判对编辑提供反馈，用于训练编排器和完善规划器，从而获得比以往方法更连贯、更可靠的结果。 AI

影响引入了一种处理复杂、多步骤图像编辑指令的新方法，有可能改进由人工智能驱动的创意工具。

排序理由该集群包含一篇详细介绍图像编辑新方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-14 17:58

From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting …
arXiv cs.CV TIER_1 English(EN) · Yong Jae Lee · 2026-05-14 17:58

From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

Modern image editing models produce realistic results but struggle with abstract, multi step instructions (e.g., ``make this advertisement more vegetarian-friendly''). Prior agent based methods decompose such tasks but rely on handcrafted pipelines or teacher imitation, limiting …