PulseAugur
实时 15:07:15
English(EN) Improving Diffusion Planners by Self-Supervised Action Gating with Energies

新的SAGE方法通过潜在一致性提升扩散规划器

研究人员开发了一种名为自监督能量门控(SAGE)的新方法,以改进离线强化学习中使用的扩散规划器。SAGE通过惩罚与环境动态不一致的规划来起作用,使用源自联合嵌入预测架构(JEPA)编码器的潜在一致性信号。该方法无需环境回滚或策略重新训练即可集成到现有的扩散规划流程中,从而提高了各种基准测试的性能和鲁棒性。 AI

影响 通过在无需额外训练的情况下提高鲁棒性和性能来增强强化学习规划。

排序理由 该集群包含一篇详细介绍改进扩散规划器新方法的论文。[lever_c_research降级:ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuan Lu, Dongqi Han, Yansen Wang, Dongsheng Li ·

    通过自监督能量动作门控改进扩散规划器

    arXiv:2603.02650v2 Announce Type: replace-cross Abstract: Diffusion planners are a strong approach for offline reinforcement learning, but they can fail when value-guided selection favours trajectories that score well yet are locally inconsistent with the environment dynamics, re…