研究人员开发了TrioPose,一种用于姿态引导的文本到图像生成的新型框架,解决了复杂多人场景中的挑战。TrioPose基于SD3.5M架构,利用三流姿态感知DiT将姿态视为一种独立的模态,确保稳定性的同时强制执行几何约束。它还引入了可学习的关系偏置掩码来处理遮挡,以及姿态引导的空间损失加权策略来将监督集中在有问题的区域。实验表明,TrioPose在Human-Art、CrowdPose和OCHuman等基准测试中显著优于现有方法,在Human-Art上AP提高了30%。 AI
影响 在姿态引导的多人图像生成基准测试中设定了新的SOTA(State-of-the-Art),提高了保真度和语义对齐度。
排序理由 该集群包含一篇详细介绍AI图像生成新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →