研究人员推出了 Orca,一个旨在从多模态数据中学习统一潜在空间的新型通用世界基础模型。与专注于单一模态预测的模型不同,Orca 采用 Next-State-Prediction 方法来理解和预测世界动态。它利用来自连续视频的无意识学习以及来自语言描述事件和 VQA 监督的有意识学习,并在包含 125K 小时视频和 1.6 亿事件标注的大型数据集上进行训练。该模型在文本生成、图像预测和具身动作生成等下游任务上表现出色,优于专业基线。 AI
影响 Orca 的统一世界潜在空间方法有望推进多模态人工智能的理解和预测能力。
排序理由 该集群描述了一篇详细介绍新型基础模型的新研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →