PulseAugur
实时 15:19:39
实体 D4RL

D4RL

PulseAugur coverage of D4RL — every cluster mentioning D4RL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_38233 ·

    新的COOPO框架提升强化学习效率

    研究人员开发了一个名为COOPO(循环离线-在线策略优化)的新框架,以解决离线和在线强化学习的局限性。该方法在静态数据集上进行离线训练和在线微调之间反复循环,旨在防止知识遗忘和分布漂移。理论上,COOPO比纯在线强化学习提供了更高的样本效率,并在D4RL基准测试中展示了优于现有混合方法的性能,并减少了交互需求。

  2. TOOL · CL_21965 ·

    SlimDT论文提出在顺序建模外注入RTG

    研究人员开发了SlimDT,这是Decision Transformer (DT)模型在离线强化学习中的一种改进。SlimDT将Return-to-Go (RTG)令牌从自回归序列中移除,而是直接将其信息注入状态表示中。这种方法将序列长度减少了三分之一,从而提高了推理效率和计算收益。在D4RL基准测试上的实验表明,SlimDT的性能优于标准DT,并达到了与最先进方法相当的性能。