实体 policy tessellations

policy tessellations

PulseAugur coverage of policy tessellations — every cluster mentioning policy tessellations across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
其他 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_109541 · Jun 24 · 09:00

新方法简化结构化马尔可夫决策过程中的最优策略

研究人员开发了一种理解结构化马尔可夫决策过程中最优策略的新方法。该方法侧重于通过基于边界的近似直接学习策略区域，为动态规划和强化学习中的传统价值函数近似提供了替代方案。在库存控制和队列准入方面的实验表明，与现有的强化学习基线相比，这种新方法产生的策略误差更低、价值差距更小、误差衰减更快。

新方法简化结构化马尔可夫决策过程中的最优策略