研究人员开发了Plan-R1,一种利用大语言模型进行自动驾驶轨迹规划的新型两阶段框架。该方法首先在专家数据上预训练一个通用轨迹预测器以学习类人行为,然后使用基于规则的奖励进行微调,以确保安全性和合规性。一项关键创新是方差解耦GRPO(Variance-Decoupled GRPO),它解决了现有优化方法的局限性,确保在训练过程中优先考虑安全关键目标。在nuPlan基准上的实验表明,Plan-R1在现实的反应式场景中取得了最先进的性能。 AI
影响 增强了自动驾驶的安全性和可行性,可能加速其在现实世界中的部署。
排序理由 该集群包含一篇研究论文,详细介绍了自动驾驶轨迹规划的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →