研究人员推出了CV-Arena,一个旨在评估指令引导的图像编辑能力的新基准。该基准包含16种任务类型下的12,000个真实图像指令对,旨在捕捉专业工作流程,而不仅仅是简单的外观编辑。它还提出了Active Elo,一个用于可扩展评估的人机协作偏好协议,并展示了像CV-Agent这样的代理模型在改进视觉编辑中的指令遵循方面的潜力。 AI
影响 为评估复杂的图像编辑任务建立了新标准,可能推动多模态AI能力的进步。
排序理由 该集群包含一篇介绍新基准和评估协议的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →