English(EN) Cosmos 3: Omnimodal World Models for Physical AI

Cosmos 3模型统一模态，助力物理AI研究

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员推出了Cosmos 3，这是一系列新的全模态世界模型，能够处理和生成跨越语言、图像、视频、音频和动作序列的数据。这种统一的架构有效地将各种专用模型整合到一个物理AI的单一框架中。Cosmos 3在多个理解和生成任务上取得了最先进的成果，使其成为具身智能体可扩展的骨干。该项目已发布其代码、模型检查点、数据集和基准，以促进开放研究。 AI

影响为具身智能体建立了一个统一的框架，有可能加速物理AI应用的发展。

排序理由发布了一篇详细介绍新型模型架构及其性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai… · 2026-06-03 04:00

Cosmos 3: 用于物理AI的全模态世界模型

arXiv:2606.02800v1 Announce Type: cross Abstract: We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, image, video, audio, and action sequences within a unified mixture-of-transformers architecture. By supporting highly fle…

报道来源 [1]

Cosmos 3: 用于物理AI的全模态世界模型

相关实体

相关话题