研究人员开发了TraCeS(基于轨迹的约束估计以确保安全),这是一种新颖的方法,旨在提高强化学习(RL)中约束未明确定义或难以衡量的安全性。该方法学习从稀疏的、轨迹级别的标签(例如,整个rollout的批准或拒绝)中估计每时间步的违反信用。TraCeS将此学习到的信号集成到约束策略优化中,使其能够在没有已知成本函数或阈值的情况下运行,并与标准的连续控制算法兼容。实证结果表明,TraCeS在各种连续控制基准测试中提高了约束满足度和反馈效率,包括长时域任务和带有噪声标签的场景。 AI
影响 这项研究可能带来更安全、更高效的强化学习系统,特别是在难以定义安全约束的复杂环境中。
排序理由 该集群包含一篇详细介绍强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →