PulseAugur
实时 19:44:22

Sapiens2 模型家族在以人为中心的视觉任务上达到最先进水平

研究人员推出 Sapiens2,一个专为以人为中心的视觉任务设计的新型高分辨率 Transformer 模型家族。这些模型参数量从 0.4 到 50 亿不等,支持原生 1K 分辨率和高达 4K 的分层变体。Sapiens2 通过结合掩码图像重建和自蒸馏对比学习的统一预训练目标、在 10 亿张人类图像数据集上进行训练以及采用窗口注意力等增强架构以获得更长的空间上下文,从而提高了性能。 AI

影响 为以人为中心的视觉任务引入了新的模型架构和预训练策略,有可能提高下游应用(如姿态估计和分割)的性能。

排序理由 这是一篇描述新模型家族的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Sapiens2 模型家族在以人为中心的视觉任务上达到最先进水平

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Shunsuke Saito ·

    Sapiens2

    We present Sapiens2, a model family of high-resolution transformers for human-centric vision focused on generalization, versatility, and high-fidelity outputs. Our model sizes range from 0.4 to 5 billion parameters, with native 1K resolution and hierarchical variants that support…