PulseAugur
实时 23:54:04
实体 Zakaria Mhammedi

Zakaria Mhammedi

PulseAugur coverage of Zakaria Mhammedi — every cluster mentioning Zakaria Mhammedi across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119712 ·

    新的强化学习算法解决了线性贝尔曼完备MDP问题

    一篇新的研究论文介绍了一种高效的强化学习(RL)算法,适用于具有线性贝尔曼完备性和确定性转移的马尔可夫决策过程(MDP)。该算法旨在计算高效,即使对于大型或无限动作空间,只要有argmax预言机可用。所提出的方法实现了在时间范围、特征维度和所需精度上呈多项式增长的样本和计算复杂度。