研究人员开发了 MergeTok,这是一种新颖的视觉令牌化器,它统一了用于图像生成的连续和离散方法。该方法使用令牌合并来弥合 VAE 和 VQ 模型之间的差距,从而实现更好的语义控制和更稳定的训练。与现有模型相比,MergeTok 在图像生成任务上表现出具有较低重建误差的竞争力,为鲁棒的语义组织和对生成器友好的离散性提供了一个单一的架构。 AI
影响 引入了一种统一的视觉令牌化方法,有望提高图像生成的质量和控制力。
排序理由 介绍视觉令牌化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →