研究人员开发了一种名为DRoRAE(Depth-Routed Representation AutoEncoder)的新方法,通过融合冻结的预训练视觉编码器的多层特征来改进视觉标记。现有方法通常只使用最后一层,丢弃了宝贵的层次信息。DRoRAE采用了一个轻量级的融合模块,可以自适应地聚合编码器所有层的特征,从而在ImageNet-256等数据集上显著提高重建和生成质量。这种方法还展示了融合容量与重建质量之间可预测的缩放规律,为增强视觉标记器提供了一个新的维度。 AI
影响 提高了视觉标记质量,并为未来的视觉标记器开发引入了一个可扩展的维度。
排序理由 一篇详细介绍视觉标记新方法的学术论文的发表。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →