新的TSMC方法通过可微分动力学优化轨迹和策略

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-23 09:13

研究人员推出了一种新颖的基于采样的框架——Tempered Sequential Monte Carlo (TSMC)，用于优化具有可微分动力学的系统中的轨迹和策略。该方法将控制器设计重新构建为一个推理问题，旨在最小化KL正则化的期望轨迹成本。TSMC采用退火方案，通过在调质路径上自适应地重新加权和重采样粒子，有效地从复杂的靶分布中采样。该方法在相关基准测试中已显示出广泛的适用性和优于现有基线方法的性能。 AI

影响引入了一种新的优化技术，有望提高机器人和控制系统的性能。

排序理由这是一篇描述轨迹和策略优化新方法的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-23 09:13

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

We propose a sampling-based framework for finite-horizon trajectory and policy optimization under differentiable dynamics by casting controller design as inference. Specifically, we minimize a KL-regularized expected trajectory cost, which yields an optimal "Boltzmann-tilted" dis…
arXiv cs.LG TIER_1 English(EN) · Heng Yang · 2026-04-23 09:13

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

We propose a sampling-based framework for finite-horizon trajectory and policy optimization under differentiable dynamics by casting controller design as inference. Specifically, we minimize a KL-regularized expected trajectory cost, which yields an optimal "Boltzmann-tilted" dis…

报道来源 [2]

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

相关实体

相关话题