PulseAugur
实时 11:03:14
实体 JumpRiverswim

JumpRiverswim

PulseAugur coverage of JumpRiverswim — every cluster mentioning JumpRiverswim across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93821 ·

    新的强化学习方法使用 K 步前瞻实现更快的学习

    研究人员开发了一种新颖的强化学习方法,用于非周期性、有限时间范围的马尔可夫决策过程 (MDP)。该方法引入了一种修改后的 Q 函数,将规划限制在 K 步前瞻,并包含一个阈值机制,仅当估计值超过动态阈值时才选择动作。提出了一种高效的表格学习算法,证明了快速有限样本收敛性,并实现了 K=1 时的 minimax 最优常数遗憾,以及 K>=2 时的改进遗憾界限。在合成 MDP 和 JumpRiverswim、FrozenLake 和 Any…