English(EN) MergeTok: Unified Continuous and Discrete Visual Tokenization via Token Merging

MergeTok 统一图像生成的视觉令牌化

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了 MergeTok，这是一种新颖的视觉令牌化器，它统一了用于图像生成的连续和离散方法。该方法使用令牌合并来弥合 VAE 和 VQ 模型之间的差距，从而实现更好的语义控制和更稳定的训练。与现有模型相比，MergeTok 在图像生成任务上表现出具有较低重建误差的竞争力，为鲁棒的语义组织和对生成器友好的离散性提供了一个单一的架构。 AI

影响引入了一种统一的视觉令牌化方法，有望提高图像生成的质量和控制力。

排序理由介绍视觉令牌化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Luyuan Zhang, Siyuan Li, Zedong Wang, Qingsong Xie, Cheng Tan, Anna Wang, Yanhao Zhang, Chen Chen, Haonan Lu, Haoqian Wang · 2026-06-01 04:00

MergeTok：通过令牌合并实现统一的连续和离散视觉令牌化

arXiv:2605.30904v1 Announce Type: new Abstract: Most visual tokenizers for image generation are bifurcated into two families with complementary limitations: continuous VAEs offer high-fidelity reconstruction but suffer from dense, entangled latents that are poorly suited for sema…

报道来源 [1]

MergeTok：通过令牌合并实现统一的连续和离散视觉令牌化

相关实体

相关话题