PulseAugur
实时 13:14:47
实体 Temporal difference learning

Temporal difference learning

PulseAugur coverage of Temporal difference learning — every cluster mentioning Temporal difference learning across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_62198 ·

    李雅普诺夫框架分析随机算法收敛性

    研究人员发表了一篇论文,详细介绍了一个基于李雅普诺夫的框架,用于分析随机迭代算法的有限时间收敛性。该方法使用广义莫罗包络作为通用的李雅普诺夫函数,适用于各种范数和噪声类型。该框架提供了均方收敛保证,并可扩展到随机梯度下降等算法以及Q学习和时间差分学习等强化学习方法。