实体 D4RL

D4RL

PulseAugur coverage of D4RL — every cluster mentioning D4RL across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 10

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 10

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

RESEARCH · CL_115228 · Jun 26 · 06:51

新的RS-Diffuser框架提供风险敏感的离线强化学习

研究人员开发了RS-Diffuser，一个用于风险敏感离线强化学习的新型框架。该方法将基于扩散的轨迹生成与分布价值批评相结合，以实现对风险曲线的灵活控制。通过调整推理时间参数，RS-Diffuser可以产生风险规避、风险中性或风险寻求的行为。在基准测试上的实验表明，它在提高总体回报和最坏情况鲁棒性方面取得了最先进的性能，同时最大限度地减少了安全违规。
TOOL · CL_110190 · Jun 25 · 06:42

新的ROMI方法推动离线强化学习发展，超越先前模型

研究人员推出ROMI，一种用于基于模型的离线强化学习的新方法，解决了对抗模型学习中的关键挑战。与RAMBO等先前方法不同，RAMBO因模型梯度而在控制保守性和训练稳定性方面遇到困难，ROMI采用了一个鲁棒的、感知价值的学习框架。该框架使用隐式可微的自适应加权机制来平衡价值保守性和分布外泛化。在D4RL和NeoRL基准上的实验表明，ROMI显著优于RAMBO，并能媲美或超越最先进的无模型和惩罚模型方法。
RESEARCH · CL_91432 · Jun 15 · 04:00

新研究增强了用于鲁棒强化学习和安全规划的扩散模型

研究人员正在开发新方法来提高扩散模型在强化学习和规划任务中的鲁棒性和安全性。一种方法是鲁棒正则化策略迭代（RRPI），它通过针对最坏情况动力学进行优化来解决转移不确定性，并在 D4RL 基准测试中表现出强劲的性能。另一组论文介绍了 Kolmogorov Regression 和 DiRecT 等技术，通过提高轨迹规律性来增强扩散策略，从而实现确定性故障检测，并在推理过程中强制执行安全约束，而不会过度约束采样过程。这些进展旨在使扩散模型…
TOOL · CL_82614 · Jun 10 · 04:00

新的MPDiffuser框架增强了机器人扩散模型的控制能力

研究人员开发了一个名为模型预测扩散器（MPDiffuser）的新框架，以提高扩散模型在离线决策任务中的可靠性。该方法结合了扩散规划器和动力学扩散模型，能够生成既符合任务目标又具有动力学合理性的轨迹。MPDiffuser在保持任务意图的同时迭代地改进可行性，并通过一个排序模块选择最佳轨迹。该框架在各种基准测试中显示出比以往基于扩散的方法持续的改进，并在真实的四足机器人上得到了验证。
RESEARCH · CL_65476 · May 31 · 15:46

新研究探讨Q学习稳定性和离线RL方法

两篇新研究论文探讨了强化学习技术的进展。一篇论文介绍了漂移Q学习（Drift Q-Learning），该方法结合了基于漂移的行为正则化器和由Critic驱动的策略改进，以提高离线强化学习任务的性能和稳定性。另一篇论文对线性Q学习中的周期性和软性目标更新进行了理论分析，证明了这些机制在特定条件下可以保证收敛。
TOOL · CL_58899 · May 29 · 04:00

新MoMa QL框架通过矩匹配提高RL效率

研究人员推出了一种名为矩匹配Q学习（Moment Matching Q-Learning, MoMa QL）的新型框架，旨在解决强化学习中基于分数和基于流的生成模型中的推理延迟问题。MoMa QL采用最大均值差异（MMD）来对齐分布之间的所有统计矩，确保条件分数函数的稳定收敛。在实践中，该方法在D4RL任务上表现出相当或更好的性能，并且由于加速了动作采样，在离线到在线RL场景中具有更优越的适应性。
TOOL · CL_56177 · May 28 · 04:00

新的SPAR框架改进了AI中的离线策略改进

研究人员引入了支持性动作修正（SPAR），一个旨在解决离线策略改进中固有冲突的新颖框架。SPAR将全局学习重新构建为局部残差修正，以冻结的行为克隆策略为锚点。这种方法促进了在残差空间内的细粒度拟合和局部策略改进，有效地缩小了搜索空间。该框架还结合了潜在自我模仿来解决拟合-改进梯度冲突，理论上消除了流形法向漂移，并在D4RL实验中展示了最先进的性能。
RESEARCH · CL_50951 · May 26 · 04:00

新研究推进机器人和LLM的策略优化

研究人员引入了几种新方法来增强强化学习中的策略优化，特别是针对涉及机器人和大型语言模型（LLM）的复杂任务。MODIP旨在通过使用世界模型来指导适应，从而高效地微调机器人学习中的扩散策略，与标准的模仿学习相比，提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外，CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…
TOOL · CL_38233 · May 18 · 17:15

新的COOPO框架提升强化学习效率

研究人员开发了一个名为COOPO（循环离线-在线策略优化）的新框架，以解决离线和在线强化学习的局限性。该方法在静态数据集上进行离线训练和在线微调之间反复循环，旨在防止知识遗忘和分布漂移。理论上，COOPO比纯在线强化学习提供了更高的样本效率，并在D4RL基准测试中展示了优于现有混合方法的性能，并减少了交互需求。
TOOL · CL_21965 · May 8 · 04:00

SlimDT论文提出在顺序建模外注入RTG

研究人员开发了SlimDT，这是Decision Transformer (DT)模型在离线强化学习中的一种改进。SlimDT将Return-to-Go (RTG)令牌从自回归序列中移除，而是直接将其信息注入状态表示中。这种方法将序列长度减少了三分之一，从而提高了推理效率和计算收益。在D4RL基准测试上的实验表明，SlimDT的性能优于标准DT，并达到了与最先进方法相当的性能。