PulseAugur
实时 07:14:40
实体 Direct Advantage Estimation (DAE)

Direct Advantage Estimation (DAE)

PulseAugur coverage of Direct Advantage Estimation (DAE) — every cluster mentioning Direct Advantage Estimation (DAE) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_99674 ·

    研究论文分析时序差分学习方差

    一篇新的研究论文分析了时序差分(TD)学习中的方差,这是一种用于强化学习的方法。研究表明,TD学习通过聚合来自多个轨迹的信息来减少方差,并且对于给定的样本数量,较短的更新时间范围会导致较低的方差。该论文还提出了直接优势估计(DAE)作为一种回归调整的控制变量,在样本量大的情况下,其方差界限比TD更紧密。