English(EN) MEPA: Multi-Scale Representation Alignment for Visual Autoregressive Modeling with Mixture of Experts

新的MEPA架构通过专家混合增强视觉自回归建模

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-02 04:00

研究人员开发了MEPA，一种新颖的专家混合（MoE）架构，旨在改进视觉自回归建模。MEPA通过实现自适应专家选择来解决多尺度表示学习中的局限性，从而解耦不同尺度的表示学习。该模型还整合了外部自监督特征以增强早期阶段的语义建模，并采用了一种针对视觉自回归范式定制的残差特征聚合方案。实验表明，MEPA显著提高了训练效率和生成质量，在ImageNet 256x256基准测试中取得了优越的FID分数，同时减少了训练周期并降低了与密集基线相比的参数预算。 AI

影响这项研究引入了一种可能提高图像生成模型效率和质量的新颖架构。

排序理由该集群包含一篇详细介绍新模型架构的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Nuoyan Zhou, Zhijun Tu, Lei Yu, Kun Cheng, Jie Hu, Nannan Wang, Xinghao Chen · 2026-07-02 04:00

MEPA：面向具有专家混合的视觉自回归建模的多尺度表示对齐

arXiv:2607.00371v1 Announce Type: cross Abstract: Visual AutoRegressive modeling (VAR) has pioneered a coarse-to-fine multi-scale autoregressive generative paradigm, demonstrating strong capabilities in image generation. However, VAR still suffers from inherent deficiencies in mu…

报道来源 [1]

MEPA：面向具有专家混合的视觉自回归建模的多尺度表示对齐

相关实体

相关话题