English(EN) TraCeS: Learning Per-Timestep Constraint-Violation Credit from Sparse Trajectory-Level Labels

新方法TraCeS利用稀疏约束标签提升强化学习安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员开发了TraCeS（基于轨迹的约束估计以确保安全），这是一种新颖的方法，旨在提高强化学习（RL）中约束未明确定义或难以衡量的安全性。该方法学习从稀疏的、轨迹级别的标签（例如，整个rollout的批准或拒绝）中估计每时间步的违反信用。TraCeS将此学习到的信号集成到约束策略优化中，使其能够在没有已知成本函数或阈值的情况下运行，并与标准的连续控制算法兼容。实证结果表明，TraCeS在各种连续控制基准测试中提高了约束满足度和反馈效率，包括长时域任务和带有噪声标签的场景。 AI

影响这项研究可能带来更安全、更高效的强化学习系统，特别是在难以定义安全约束的复杂环境中。

排序理由该集群包含一篇详细介绍强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Siow Meng Low, Ze Gong, Akshat Kumar · 2026-07-01 04:00

TraCeS: Learning Per-Timestep Constraint-Violation Credit from Sparse Trajectory-Level Labels

arXiv:2504.12557v3 Announce Type: replace-cross Abstract: Ensuring safe behavior in reinforcement learning (RL) is challenging when safety constraints are implicit and cannot be densely measured. In many settings, supervision is limited to coarse approvals or rejections of whole …

报道来源 [1]

TraCeS: Learning Per-Timestep Constraint-Violation Credit from Sparse Trajectory-Level Labels

相关实体

相关话题