PulseAugur
实时 12:02:10
实体 CartPole

CartPole

PulseAugur coverage of CartPole — every cluster mentioning CartPole across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_98147 ·

    新的OHIRL框架从无奖励感知流中学习 · 跟踪2个来源

    研究人员开发了一种新颖的在线奖励惩罚学习框架OHIRL,专为环境不提供明确奖励或标签的场景设计。OHIRL通过分析转换后果来推断诸如疼痛或错误等感知维度的效价。该框架将下一包预测、残余动力学建模、轨迹评估和策略更新的角色分开。在2x2-XOR、CartPole和Taxi等任务上的实验表明,OHIRL在最优动作选择和奖励符号预测方面能够达到高精度,优于各种对照方法。

  2. TOOL · CL_20450 ·

    Bilinear Mamba-Koopman Neural MPC 增强了在不同条件下的控制依赖动态

    研究人员开发了一种新的 Bilinear Mamba-Koopman Neural MPC 模型,该模型增强了具有不同动态的系统的模型预测控制。该模型在潜在动态中引入了控制依赖耦合,从而能够在单个控制范围内更好地适应不断变化的情况。在 CartPole 和 RSCP 基准测试上的实验表明,预测准确性和稳定性得到了提高,尤其是在时变场景和重新规划延迟的情况下。