实体 Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

PulseAugur coverage of Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems — every cluster mentioning Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_61764 · May 26 · 07:43

策略梯度方法在长时序决策问题中的分析

研究人员探索了策略梯度方法在长时序决策问题中的应用，这类问题中即时奖励可能导致重大的未来负面后果。他们识别出两种不同的失败模式：完成（completion），即达到决策时限；最优性（optimality），即在达到时限的情况下做出最佳决策。该研究提出了一种分离这两个问题的方法，并在模拟场景（如砌砖工的职业生涯和NBA球员的职业生涯）中进行了测试，发现他们的方法提高了性能。

策略梯度方法在长时序决策问题中的分析