研究人员开发了SlimDT,这是Decision Transformer (DT)模型在离线强化学习中的一种改进。SlimDT将Return-to-Go (RTG)令牌从自回归序列中移除,而是直接将其信息注入状态表示中。这种方法将序列长度减少了三分之一,从而提高了推理效率和计算收益。在D4RL基准测试上的实验表明,SlimDT的性能优于标准DT,并达到了与最先进方法相当的性能。 AI
影响 引入了Decision Transformer的一种更有效的变体,有可能提高离线强化学习任务的性能并降低计算成本。
排序理由 这是一篇研究论文,详细介绍了对现有强化学习模型架构的一种新颖修改。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →