研究人员开发了一种名为自监督能量门控(SAGE)的新方法,以改进离线强化学习中使用的扩散规划器。SAGE通过惩罚与环境动态不一致的规划来起作用,使用源自联合嵌入预测架构(JEPA)编码器的潜在一致性信号。该方法无需环境回滚或策略重新训练即可集成到现有的扩散规划流程中,从而提高了各种基准测试的性能和鲁棒性。 AI
影响 通过在无需额外训练的情况下提高鲁棒性和性能来增强强化学习规划。
排序理由 该集群包含一篇详细介绍改进扩散规划器新方法的论文。[lever_c_research降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →