研究人员引入了作为 Kullback-Leibler (KL) 散度类似物的新散度,解决了其在强化学习中的局限性,特别是在分布不匹配或低噪声场景下。这些基于 Wasserstein 和 Kalman-Wasserstein 几何的新型散度即使在分布退化时也能保持有限。该研究证明了它们在线性高斯噪声最优控制中的有效性,表明它们可以防止奇异性并提高双积分器和倒立摆等示例的性能。 AI
影响 引入了可能提高强化学习智能体在复杂控制任务中稳定性和性能的数学工具。
排序理由 这是一篇详细介绍用于强化学习的新数学散度的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Kalman-Wasserstein divergence
- Kullback-Leibler divergence
- reinforcement learning
- TU Berlin
- Viktor Stein
- Wasserstein divergence
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →