研究人员推出UniMotion,一个专为人类运动、文本和视觉数据集成理解与生成而设计的新型框架。与以往处理有限模态组合并依赖离散分词的模型不同,UniMotion将运动视为主要的连续模态。它在一个共享的LLM骨干网络中采用了跨模态对齐运动VAE和双路径嵌入器,为运动和RGB数据创建了平行的连续路径。该框架还结合了双后验KL对齐和潜在重构对齐等技术,以增强运动表示并解决训练挑战,在跨模态任务上取得了最先进的性能。 AI
影响 该框架有望推动多模态AI能力的发展,在动画、机器人和人机交互等领域实现更复杂اً的应用。
排序理由 该集群描述了一篇介绍多模态AI新框架的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →