PulseAugur
实时 23:15:52
实体 Lars Van Der Laan

Lars Van Der Laan

PulseAugur coverage of Lars Van Der Laan — every cluster mentioning Lars Van Der Laan across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_25979 ·

    新的 FQE 和 FQI 方法绕过 Bellman 完全性以实现稳定性

    研究人员开发了新的拟合 Q 评估 (FQE) 和软拟合 Q 迭代 (soft FQI) 方法,这些方法不需要 Bellman 完全性,而 Bellman 完全性在使用函数逼近时常常无法满足。所提出的技术,即静态加权 FQE 和静态重加权 soft FQI,通过重新加权回归步骤以匹配目标策略的静态分布来解决不稳定性问题。这些方法旨在提高强化学习的离策略评估的稳定性和减少值误差。