实体 Offline RL

Offline RL

PulseAugur coverage of Offline RL — every cluster mentioning Offline RL across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 4

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_156517 · Jul 22 · 04:00

新框架通过不确定性估计增强离线强化学习

研究人员开发了一个名为“不确定性估计下的保守查询和自适应正则化”（CQR-UE）的新框架，以改进离线强化学习。该方法解决了在训练过程中选择信息性偏好查询和有效利用专家反馈的挑战。CQR-UE 利用 Morse 网络估计相对于离线数据集的策略动作不确定性，从而实现保守的查询策略，保持 Bellman 更新的稳定性。它还包含一个自适应正则化方案，在策略优化期间动态调整约束，在 D4RL 基准测试上表现出优越或具有竞争力的性能。
TOOL · CL_110190 · Jun 25 · 06:42

新的ROMI方法推动离线强化学习发展，超越先前模型

研究人员推出ROMI，一种用于基于模型的离线强化学习的新方法，解决了对抗模型学习中的关键挑战。与RAMBO等先前方法不同，RAMBO因模型梯度而在控制保守性和训练稳定性方面遇到困难，ROMI采用了一个鲁棒的、感知价值的学习框架。该框架使用隐式可微的自适应加权机制来平衡价值保守性和分布外泛化。在D4RL和NeoRL基准上的实验表明，ROMI显著优于RAMBO，并能媲美或超越最先进的无模型和惩罚模型方法。
RESEARCH · CL_50951 · May 26 · 04:00

新研究推进机器人和LLM的策略优化

研究人员引入了几种新方法来增强强化学习中的策略优化，特别是针对涉及机器人和大型语言模型（LLM）的复杂任务。MODIP旨在通过使用世界模型来指导适应，从而高效地微调机器人学习中的扩散策略，与标准的模仿学习相比，提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外，CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…
TOOL · CL_42103 · May 21 · 04:31

研究发现，在日志上进行离线强化学习训练可能具有欺骗性

使用生产日志训练AI模型可能具有误导性，正如最近对离线强化学习（RL）的探索所揭示的那样。研究发现，仅依赖日志数据可能会导致模型在表面上表现良好，但在实际应用中却失败。这凸显了除了简单的奖励信号之外，还需要更强大的评估指标来确保模型的可靠性。