PulseAugur
实时 18:11:58

OmniDrive 使用 LLM 代理进行高级驾驶视频生成

研究人员推出 OmniDrive,一个新颖的 LLM 编排的多代理世界模型,用于生成多视角驾驶视频。该系统通过采用共享的符号语际来解决集成异构控制输入和融合每相机潜在表示的挑战。DRIVE-CHOREO 框架使用三个 Qwen2.5-VL 代理来创建统一的、位置感知的 token 序列,并与视频数据进行联合压缩,在 nuScenes 数据集上实现了多视角一致性和 BEV mAP 的最先进结果。 AI

影响 引入了一种生成逼真驾驶视频的新方法,可能改进自动驾驶系统的模拟和训练。

排序理由 该集群描述了 arXiv 上发表的一篇新研究论文,详细介绍了自动驾驶生成世界模型的新模型和框架。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

OmniDrive 使用 LLM 代理进行高级驾驶视频生成

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Zijie Meng, Yufei Liu, Chengqian Ma, Zhiyu Li, Jiyuan Liu, Wenhua Nie, Bingcai Wei, Shuqin Chen, Weichen Xu, Jiquan Yuan, Miao Zhang ·

    OmniDrive: An LLM-Choreographed Multi-Agent World Model with Unified Latent Co-Compression for Multi-View Driving Video Generation

    arXiv:2606.17536v1 Announce Type: cross Abstract: Generative world models for autonomous driving face two unresolved tensions: heterogeneous control injection, where free-form language, HD-maps, trajectories, and camera poses reside in incompatible representational spaces, and po…

  2. arXiv cs.CV TIER_1 English(EN) · Miao Zhang ·

    OmniDrive: An LLM-Choreographed Multi-Agent World Model with Unified Latent Co-Compression for Multi-View Driving Video Generation

    Generative world models for autonomous driving face two unresolved tensions: heterogeneous control injection, where free-form language, HD-maps, trajectories, and camera poses reside in incompatible representational spaces, and post-hoc cross-view fusion, where per-camera latents…