PulseAugur
实时 13:11:31
English(EN) Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer

SlimDT论文提出在顺序建模外注入RTG

研究人员开发了SlimDT,这是Decision Transformer (DT)模型在离线强化学习中的一种改进。SlimDT将Return-to-Go (RTG)令牌从自回归序列中移除,而是直接将其信息注入状态表示中。这种方法将序列长度减少了三分之一,从而提高了推理效率和计算收益。在D4RL基准测试上的实验表明,SlimDT的性能优于标准DT,并达到了与最先进方法相当的性能。 AI

影响 引入了Decision Transformer的一种更有效的变体,有可能提高离线强化学习任务的性能并降低计算成本。

排序理由 这是一篇研究论文,详细介绍了对现有强化学习模型架构的一种新颖修改。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SlimDT论文提出在顺序建模外注入RTG

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li, Qirui Zheng, Xionghui Yang, Chucai Wang, Wenxin Li ·

    Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer

    arXiv:2605.06104v1 Announce Type: new Abstract: Decision Transformer (DT) formulates offline reinforcement learning as autoregressive sequence modeling, achieving promising results by predicting actions from a sequence of Return-to-Go (RTG), state, and action tokens. However, RTG…