研究人员开发了一种名为价值流的新方法,用于估计强化学习中未来的完整回报分布。该方法利用灵活的流基模型和新的流匹配目标来满足分布贝尔曼方程。该技术识别出回报方差高的状态,并利用这些信息来优先学习,在基准任务的成功率方面提高了 1.3 倍。 AI
影响 通过提供更精细的回报分布估计来增强强化学习,有可能改善复杂环境中的决策和探索。
排序理由 关于强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →