PulseAugur
实时 23:48:48
实体 Bellman residual minimization

Bellman residual minimization

PulseAugur coverage of Bellman residual minimization — every cluster mentioning Bellman residual minimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06881 ·

    一项新的研究探讨了强化学习中用于控制任务的贝尔曼残差最小化方法

    本文介绍了将贝尔曼残差最小化应用于马尔可夫决策问题策略优化的基础性研究成果。虽然动态规划更为常见,但贝尔曼残差最小化在函数逼近方面具有稳定的收敛性等优势。该研究侧重于将此方法扩展到控制任务,而控制任务的探索程度不如策略评估。