实体 Markov Chains

Markov Chains

PulseAugur coverage of Markov Chains — every cluster mentioning Markov Chains across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_16092 · May 5 · 04:00

新算法弥合平均奖励与折扣奖励TD学习理论

研究人员开发了一种用于平均奖励设置下策略评估的新算法，解决了标准分析因贝尔曼算子非收缩而变得复杂化的理论挑战。这种新颖的方法使用从两个马尔可夫轨迹中采样来保证收敛到投影贝尔曼方程解。该算法的收敛性分析适用于线性函数逼近和表格设置，且不含依赖于维度的项，并将样本复杂度从四次方缩放到二次方，与折扣设置的效率相匹配。