研究人员开发了 ZGL,这是一种新颖的语言条件模型,用于预测人类运动。该模型将来自运动描述的语义引导集成到一个强大的运动预测骨干中。通过使用视觉语言模型为观察到的姿势生成字幕,然后使用 CLIP-L 对这些字幕进行编码,ZGL 通过带有零门的交叉注意力适配器将条件令牌注入 Transformer 架构。这种方法允许模型仅在语言条件能够提高预测准确性时才学习语言条件,在 Human3.6M 数据集上展示了增强的性能,并显示了向 CMUMocap 基准的迁移能力。 AI
影响 引入了一种将语义理解融入运动预测的方法,有可能提高动画和机器人技术中的真实感和可控性。
排序理由 在 arXiv 上发表了一篇关于人类运动预测新模型的新的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →