实体 Plan-R1

Plan-R1

PulseAugur coverage of Plan-R1 — every cluster mentioning Plan-R1 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_66327 · Jun 2 · 04:00

新框架使用大语言模型实现更安全的自动驾驶轨迹

研究人员开发了Plan-R1，一种利用大语言模型进行自动驾驶轨迹规划的新型两阶段框架。该方法首先在专家数据上预训练一个通用轨迹预测器以学习类人行为，然后使用基于规则的奖励进行微调，以确保安全性和合规性。一项关键创新是方差解耦GRPO（Variance-Decoupled GRPO），它解决了现有优化方法的局限性，确保在训练过程中优先考虑安全关键目标。在nuPlan基准上的实验表明，Plan-R1在现实的反应式场景中取得了最先进的性能。