PulseAugur
实时 20:00:53
实体 Traces

Traces

PulseAugur coverage of Traces — every cluster mentioning Traces across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119565 ·

    新方法TraCeS利用稀疏约束标签提升强化学习安全性

    研究人员开发了TraCeS(基于轨迹的约束估计以确保安全),这是一种新颖的方法,旨在提高强化学习(RL)中约束未明确定义或难以衡量的安全性。该方法学习从稀疏的、轨迹级别的标签(例如,整个rollout的批准或拒绝)中估计每时间步的违反信用。TraCeS将此学习到的信号集成到约束策略优化中,使其能够在没有已知成本函数或阈值的情况下运行,并与标准的连续控制算法兼容。实证结果表明,TraCeS在各种连续控制基准测试中提高了约束满足度和反馈效…