PulseAugur
实时 19:48:05
实体 Walker2d-v4

Walker2d-v4

PulseAugur coverage of Walker2d-v4 — every cluster mentioning Walker2d-v4 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_09858 ·

    新的强化学习框架通过建模不确定性来解决奖励破解问题

    研究人员开发了一个新颖的强化学习(RL)框架,通过考虑价值估计和人类偏好中的不确定性来解决奖励破解问题。这种双源不确定性模型利用集成差异和标注变异来调整动作选择,促进探索与谨慎之间的平衡。实验表明,奖励破解行为显著减少,陷阱访问频率降低了 93.7%,展示了一种更原则性的方法来创建可靠且对齐的 RL 系统。