实体
Safety Gymnasium
Safety Gymnasium
PulseAugur coverage of Safety Gymnasium — every cluster mentioning Safety Gymnasium across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的强化学习方法解决了信用分配和风险敏感约束问题
研究人员开发了新的强化学习方法,以改善智能体在复杂环境中的决策能力。广义优势分组策略优化(GAGPO)通过构建非参数价值代理,将奖励在多轮场景中向后传播,解决了信用分配的挑战,在ALFWorld和WebShop等任务上表现优于现有基线。另外,效用约束策略优化(UCMDP)提供了一个用于强化学习中风险敏感约束的框架,允许在训练过程中灵活调整安全限制,并在Safety Gymnasium基准测试中取得了优异的性能。
-
大型语言模型帮助在违规数据有限的情况下训练更安全的AI策略
研究人员开发了PROCO,一个新颖的离线安全强化学习框架,专为违规数据有限的场景设计。这种基于模型的方法集成了来自大型语言模型的自然语言知识来构建保守的成本函数,即使没有观察到不安全样本也能进行风险估计。PROCO然后使用此成本函数和学习到的动态模型来生成合成的反事实不安全数据,从而促进策略学习,提高安全性。