English(EN) Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data

大型语言模型帮助在违规数据有限的情况下训练更安全的AI策略

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了PROCO，一个新颖的离线安全强化学习框架，专为违规数据有限的场景设计。这种基于模型的方法集成了来自大型语言模型的自然语言知识来构建保守的成本函数，即使没有观察到不安全样本也能进行风险估计。PROCO然后使用此成本函数和学习到的动态模型来生成合成的反事实不安全数据，从而促进策略学习，提高安全性。 AI

影响引入了一种在违规数据有限的情况下改进强化学习代理安全性的方法，可能使其在关键应用中更安全地部署。

排序理由这是一篇详细介绍离线安全强化学习新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu · 2026-05-05 04:00

Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data

arXiv:2605.01356v1 Announce Type: new Abstract: Learning constraint-satisfying policies from offline data without risky online interaction is crucial for safety-critical decision making. Conventional methods typically learn cost value functions from abundant unsafe samples to def…

报道来源 [1]

Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data

相关实体

相关话题