PulseAugur
实时 18:31:53
实体 Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

PulseAugur coverage of Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems — every cluster mentioning Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_61764 ·

    策略梯度方法在长时序决策问题中的分析

    研究人员探索了策略梯度方法在长时序决策问题中的应用,这类问题中即时奖励可能导致重大的未来负面后果。他们识别出两种不同的失败模式:完成(completion),即达到决策时限;最优性(optimality),即在达到时限的情况下做出最佳决策。该研究提出了一种分离这两个问题的方法,并在模拟场景(如砌砖工的职业生涯和NBA球员的职业生涯)中进行了测试,发现他们的方法提高了性能。