PulseAugur
实时 10:29:32
实体 Reward Observability Fraction

Reward Observability Fraction

PulseAugur coverage of Reward Observability Fraction — every cluster mentioning Reward Observability Fraction across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_123044 ·

    新的CROF方法改进了潜能世界模型的检查点选择

    研究人员开发了一种从潜能世界模型训练运行中选择最佳检查点的新方法,这对于优化基于模型的强化学习和模型预测控制至关重要。所提出的方法称为复合奖励可观测性分数(CROF),它使用源自最优控制理论的结构化验证时诊断。在Gymnasium的LunarLander v3上的测试中,CROF在预测闭环性能方面优于验证损失和RMSE等传统指标。所选的世界模型在用于训练A2C策略时,取得了比无模型基线显著更好的结果,同时所需的交互环境次数也大大减少。