实体 Denis Tarasov

Denis Tarasov

PulseAugur coverage of Denis Tarasov — every cluster mentioning Denis Tarasov across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_53753 · May 27 · 04:00

Q学习集成提高了离线上下文强化学习的性能

一篇新的研究论文探讨了将强化学习（RL）目标整合到离线上下文强化学习（ICRL）方法中的有效性。在GridWorld和MuJoCo环境中超过150个数据集的实验表明，与标准的算法蒸馏（AD）相比，直接优化RL目标平均将性能提高了约30%。在XLand-MiniGrid环境中，RL目标使AD的性能翻倍，并且在大多数测试场景中，在价值学习过程中增加保守性可以进一步提高结果。研究结果强调了将ICRL学习目标与RL的奖励最大化目标对齐的重要性。