实体
D4RL
D4RL
PulseAugur coverage of D4RL — every cluster mentioning D4RL across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的COOPO框架提升强化学习效率
研究人员开发了一个名为COOPO(循环离线-在线策略优化)的新框架,以解决离线和在线强化学习的局限性。该方法在静态数据集上进行离线训练和在线微调之间反复循环,旨在防止知识遗忘和分布漂移。理论上,COOPO比纯在线强化学习提供了更高的样本效率,并在D4RL基准测试中展示了优于现有混合方法的性能,并减少了交互需求。
-
SlimDT论文提出在顺序建模外注入RTG
研究人员开发了SlimDT,这是Decision Transformer (DT)模型在离线强化学习中的一种改进。SlimDT将Return-to-Go (RTG)令牌从自回归序列中移除,而是直接将其信息注入状态表示中。这种方法将序列长度减少了三分之一,从而提高了推理效率和计算收益。在D4RL基准测试上的实验表明,SlimDT的性能优于标准DT,并达到了与最先进方法相当的性能。