新框架使用反事实流优化离线强化学习轨迹

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员引入了一个名为反事实输运流（counterfactual transport flows）的离线强化学习新框架。该方法旨在仅使用记录的历史数据来改进决策策略，而不会超出可用信息的范围。该方法通过在潜在空间中寻找具有更高反馈的相似轨迹来构建局部偏好对，然后指导一个保守的优化过程。这使得在保持原始行为和应用更强改进之间进行可控的权衡，并在 D4RL 基准测试上得到了验证。 AI

影响引入了一种从历史数据改进决策的新方法，有可能提高离线强化学习应用的效率和安全性。

排序理由该集群包含一篇详细介绍离线强化学习新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Lena Krieger, Xuan Zhao, Zhuo Cao, Qin Wang, Hanno Scharr, Ira Assent · 2026-06-09 04:00

用于离线保守轨迹精炼的反事实输运流

arXiv:2606.09115v1 Announce Type: new Abstract: Offline reinforcement learning (RL) offers a path to policy improvement from logged data alone, using historical returns or other measurable outcomes as world feedback. A key difficulty is improving observed behavior without extrapo…

报道来源 [1]

用于离线保守轨迹精炼的反事实输运流

相关实体

相关话题