English(EN) Beyond Text Prompts: Visual-to-Visual Generation as A Unified Paradigm

引入视觉到视觉生成框架 V2V-Zero

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-12 15:35

研究人员引入了一个名为 V2V-Zero 的新框架，该框架通过使用视觉输入而非文本提示来实现视觉到视觉生成。这种方法允许用户使用草图或参考图像等视觉规范来条件化生成模型，绕过了基于文本描述的限制。V2V-Zero 在无需微调的情况下实现了与文本到图像模型相当的性能，并已在各种任务和模型上进行了评估，揭示了内容生成和结构控制方面的挑战。 AI

影响通过用视觉输入替换文本提示，实现更直观的视觉内容创建，有可能提高用户在生成模型中的控制力和表现力。

排序理由该集群描述了一篇介绍视觉到视觉生成新框架和基准的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Raymond H. Chan · 2026-05-12 15:35

Beyond Text Prompts: Visual-to-Visual Generation as A Unified Paradigm

Humans often specify and create through visual artifacts: typography sheets, sketches, reference images, and annotated scenes. Yet modern visual generators still ask users to serialize this intent into text, a bottleneck that compresses signals like spatial structure, exact appea…

报道来源 [1]

Beyond Text Prompts: Visual-to-Visual Generation as A Unified Paradigm

相关实体

相关话题