PulseAugur
实时 12:16:24
实体 Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning

Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning

PulseAugur coverage of Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning — every cluster mentioning Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
4
90 天内 4
发布 · 30天
0
90 天内 0
论文 · 30天
4
90 天内 4
层级分布 · 90 天
主题
情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 4 条
  1. TOOL · CL_93220 ·

    新的QPILOTS方法增强了扩散策略的强化学习

    研究人员推出了一种新颖的方法QPILOTS,旨在提高流匹配和扩散策略的强化学习(RL)效率。该技术通过将中间动作投影到最终干净动作的估计值上来引导推理时的去噪过程,从而避免了直接梯度反向传播相关的数值不稳定性。QPILOTS提供了两种变体:QPILOTS-U和QPILOTS-M,并在离线到在线RL基准测试中展示了卓越的性能,在50个任务中实现了90%的成功率。该方法还成功应用于一个大型、预训练的视觉-语言动作(VLA)基础模型,其性能…

  2. RESEARCH · CL_86629 ·

    自回归策略在VLA模型中实现实时执行

    一篇新的研究论文介绍了一种在视觉-语言-动作(VLA)模型的自回归策略中实现实时执行的方法。该方法通过调整标记化范围和采用约束解码来保证严格的延迟界限。这使得多轨迹解码成为可能,从而提高了任务完成速度,并在模拟和现实世界环境中均优于等效的流匹配策略。

  3. RESEARCH · CL_74409 ·

    机器人研究在操作、AI、安全和泛化方面取得进展

    研究人员正在开发先进的机器人操作方法,重点是提高泛化性、安全性和效率。BiCICLe 等新框架利用上下文学习来执行双臂任务,而 Ambient Diffusion Policy 和 GHOST 则增强了从次优或多样化数据中进行模仿学习的能力。其他方法,如 WorldDP 和 Latent Diffusion Policy,则使用分层结构和世界模型来处理复杂的多阶段任务。此外,PACT 和一项关于安全具身AI的调查,解决了机器人系统在物…

  4. RESEARCH · CL_50951 ·

    新研究推进机器人和LLM的策略优化

    研究人员引入了几种新方法来增强强化学习中的策略优化,特别是针对涉及机器人和大型语言模型(LLM)的复杂任务。MODIP旨在通过使用世界模型来指导适应,从而高效地微调机器人学习中的扩散策略,与标准的模仿学习相比,提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外,CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…