研究人员引入了一个名为反事实输运流(counterfactual transport flows)的离线强化学习新框架。该方法旨在仅使用记录的历史数据来改进决策策略,而不会超出可用信息的范围。该方法通过在潜在空间中寻找具有更高反馈的相似轨迹来构建局部偏好对,然后指导一个保守的优化过程。这使得在保持原始行为和应用更强改进之间进行可控的权衡,并在 D4RL 基准测试上得到了验证。 AI
影响 引入了一种从历史数据改进决策的新方法,有可能提高离线强化学习应用的效率和安全性。
排序理由 该集群包含一篇详细介绍离线强化学习新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →