PulseAugur
实时 07:14:04
实体 cart-pole

cart-pole

PulseAugur coverage of cart-pole — every cluster mentioning cart-pole across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_16246 ·

    研究人员可视化 RL 控制算法的 Critic 匹配损失景观

    研究人员开发了一种新方法来可视化在线强化学习算法中 Critic 神经网络的损失景观。该技术将参数轨迹投影到低维子空间,创建 3D 损失表面和 2D 优化路径来表征 Critic 学习行为。该方法在倒立摆和航天器控制任务上进行了演示,引入了量化指标来比较训练结果并区分稳定收敛和不稳定学习。