研究人员推出 OmniDrive,一个新颖的 LLM 编排的多代理世界模型,用于生成多视角驾驶视频。该系统通过采用共享的符号语际来解决集成异构控制输入和融合每相机潜在表示的挑战。DRIVE-CHOREO 框架使用三个 Qwen2.5-VL 代理来创建统一的、位置感知的 token 序列,并与视频数据进行联合压缩,在 nuScenes 数据集上实现了多视角一致性和 BEV mAP 的最先进结果。 AI
影响 引入了一种生成逼真驾驶视频的新方法,可能改进自动驾驶系统的模拟和训练。
排序理由 该集群描述了 arXiv 上发表的一篇新研究论文,详细介绍了自动驾驶生成世界模型的新模型和框架。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →