研究人员开发了新的拟合 Q 评估 (FQE) 和软拟合 Q 迭代 (soft FQI) 方法,这些方法不需要 Bellman 完全性,而 Bellman 完全性在使用函数逼近时常常无法满足。所提出的技术,即静态加权 FQE 和静态重加权 soft FQI,通过重新加权回归步骤以匹配目标策略的静态分布来解决不稳定性问题。这些方法旨在提高强化学习的离策略评估的稳定性和减少值误差。 AI
影响 增强了强化学习离策略评估的理论基础,可能改进复杂环境中的模型训练和决策制定。
排序理由 两篇 arXiv 论文介绍了强化学习评估的新颖理论方法。
- Bellman completeness
- Fitted Q-evaluation
- function approximation
- Lars Van Der Laan
- reinforcement learning
- stationary-reweighted soft FQI
- stationary-weighted FQE
- off-policy evaluation
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →