English(EN) ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

ViTok-v2 扩展到 50 亿参数，推进图像自编码器重建和生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员推出了 ViTok-v2，这是一种拥有 50 亿参数的图像自编码器，其分辨率和参数数量均可扩展至大于先前模型。该新模型利用原生分辨率支持和 DINOv3 感知损失，在各种图像尺寸上实现了更好的重建质量。ViTok-v2 在约 20 亿张图像上进行了训练，与现有方法相比，在更高分辨率下表现出更优的性能。 AI

影响推动了图像自编码器领域的最新进展，可能提高了生成模型的能力。

排序理由这是一篇详细介绍新模型架构及其性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Philippe Hansen-Estruch, Jiahui Chen, Vivek Ramanujan, Orr Zohar, Yan Ping, Animesh Sinha, Markos Georgopoulos, Edgar Schoenfeld, Ji Hou, Felix Juefei-Xu, Sriram Vishwanath, Ali Thabet · 2026-05-08 04:00

ViTok-v2：将原生分辨率自编码器扩展至50亿参数

arXiv:2605.05331v1 Announce Type: cross Abstract: Vision Transformer (ViT) autoencoders have emerged as compelling tokenizers for images, offering improved reconstruction over convolutional tokenizers. However, existing ViT tokenizers cannot explore this landscape as performance …

报道来源 [1]

ViTok-v2：将原生分辨率自编码器扩展至50亿参数

相关实体

相关话题