English(EN) Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenizatio

新的DRoRAE方法通过融合多层特征增强视觉标记

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 16:14

研究人员开发了一种名为DRoRAE（Depth-Routed Representation AutoEncoder）的新方法，通过融合冻结的预训练视觉编码器的多层特征来改进视觉标记。现有方法通常只使用最后一层，丢弃了宝贵的层次信息。DRoRAE采用了一个轻量级的融合模块，可以自适应地聚合编码器所有层的特征，从而在ImageNet-256等数据集上显著提高重建和生成质量。这种方法还展示了融合容量与重建质量之间可预测的缩放规律，为增强视觉标记器提供了一个新的维度。 AI

影响提高了视觉标记质量，并为未来的视觉标记器开发引入了一个可扩展的维度。

排序理由一篇详细介绍视觉标记新方法的学术论文的发表。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yuan Zhou · 2026-05-11 16:14

超越最后一层：多层表示融合用于视觉分词

Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical info…

报道来源 [1]

超越最后一层：多层表示融合用于视觉分词

相关实体

相关话题