研究人员推出了一种新颖的基于采样的框架——Tempered Sequential Monte Carlo (TSMC),用于优化具有可微分动力学的系统中的轨迹和策略。该方法将控制器设计重新构建为一个推理问题,旨在最小化KL正则化的期望轨迹成本。TSMC采用退火方案,通过在调质路径上自适应地重新加权和重采样粒子,有效地从复杂的靶分布中采样。该方法在相关基准测试中已显示出广泛的适用性和优于现有基线方法的性能。 AI
影响 引入了一种新的优化技术,有望提高机器人和控制系统的性能。
排序理由 这是一篇描述轨迹和策略优化新方法的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →