PulseAugur
实时 12:58:20
实体 Bellman-Taylor score decoding

Bellman-Taylor score decoding

PulseAugur coverage of Bellman-Taylor score decoding — every cluster mentioning Bellman-Taylor score decoding across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_82419 ·

    新框架简化了具有状态相关动作的复杂DRL

    研究人员引入了一个名为Bellman-Taylor分数解码的新框架,以解决将深度强化学习应用于具有复杂、状态相关动作的马尔可夫决策过程中的挑战。该方法将策略学习映射到欧几里得分数空间,允许使用标准的DRL算法,同时通过动作解码器强制执行可行性。该方法在小规模测试中表现出接近最优的性能,并在大型系统中比现有方法有了显著改进,特别是在应用于排队网络控制问题时。