PulseAugur
实时 13:57:53
English(EN) MergeTok: Unified Continuous and Discrete Visual Tokenization via Token Merging

MergeTok 统一图像生成的视觉令牌化

研究人员开发了 MergeTok,这是一种新颖的视觉令牌化器,它统一了用于图像生成的连续和离散方法。该方法使用令牌合并来弥合 VAEVQ 模型之间的差距,从而实现更好的语义控制和更稳定的训练。与现有模型相比,MergeTok 在图像生成任务上表现出具有较低重建误差的竞争力,为鲁棒的语义组织和对生成器友好的离散性提供了一个单一的架构。 AI

影响 引入了一种统一的视觉令牌化方法,有望提高图像生成的质量和控制力。

排序理由 介绍视觉令牌化新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Luyuan Zhang, Siyuan Li, Zedong Wang, Qingsong Xie, Cheng Tan, Anna Wang, Yanhao Zhang, Chen Chen, Haonan Lu, Haoqian Wang ·

    MergeTok:通过令牌合并实现统一的连续和离散视觉令牌化

    arXiv:2605.30904v1 Announce Type: new Abstract: Most visual tokenizers for image generation are bifurcated into two families with complementary limitations: continuous VAEs offer high-fidelity reconstruction but suffer from dense, entangled latents that are poorly suited for sema…