研究人员推出 Sapiens2,一个专为以人为中心的视觉任务设计的新型高分辨率 Transformer 模型家族。这些模型参数量从 0.4 到 50 亿不等,支持原生 1K 分辨率和高达 4K 的分层变体。Sapiens2 通过结合掩码图像重建和自蒸馏对比学习的统一预训练目标、在 10 亿张人类图像数据集上进行训练以及采用窗口注意力等增强架构以获得更长的空间上下文,从而提高了性能。 AI
影响 为以人为中心的视觉任务引入了新的模型架构和预训练策略,有可能提高下游应用(如姿态估计和分割)的性能。
排序理由 这是一篇描述新模型家族的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →