PulseAugur
实时 16:43:28
实体 Denis Tarasov

Denis Tarasov

PulseAugur coverage of Denis Tarasov — every cluster mentioning Denis Tarasov across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_53753 ·

    Q学习集成提高了离线上下文强化学习的性能

    一篇新的研究论文探讨了将强化学习(RL)目标整合到离线上下文强化学习(ICRL)方法中的有效性。在GridWorld和MuJoCo环境中超过150个数据集的实验表明,与标准的算法蒸馏(AD)相比,直接优化RL目标平均将性能提高了约30%。在XLand-MiniGrid环境中,RL目标使AD的性能翻倍,并且在大多数测试场景中,在价值学习过程中增加保守性可以进一步提高结果。研究结果强调了将ICRL学习目标与RL的奖励最大化目标对齐的重要性。