实体 Walker2d-v4

Walker2d-v4

PulseAugur coverage of Walker2d-v4 — every cluster mentioning Walker2d-v4 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_09858 · Apr 29 · 07:14

新的强化学习框架通过建模不确定性来解决奖励破解问题

研究人员开发了一个新颖的强化学习（RL）框架，通过考虑价值估计和人类偏好中的不确定性来解决奖励破解问题。这种双源不确定性模型利用集成差异和标注变异来调整动作选择，促进探索与谨慎之间的平衡。实验表明，奖励破解行为显著减少，陷阱访问频率降低了 93.7%，展示了一种更原则性的方法来创建可靠且对齐的 RL 系统。