PulseAugur
实时 21:55:15
实体 Support-Preserving Action Rectification

Support-Preserving Action Rectification

PulseAugur coverage of Support-Preserving Action Rectification — every cluster mentioning Support-Preserving Action Rectification across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56177 ·

    新的SPAR框架改进了AI中的离线策略改进

    研究人员引入了支持性动作修正(SPAR),一个旨在解决离线策略改进中固有冲突的新颖框架。SPAR将全局学习重新构建为局部残差修正,以冻结的行为克隆策略为锚点。这种方法促进了在残差空间内的细粒度拟合和局部策略改进,有效地缩小了搜索空间。该框架还结合了潜在自我模仿来解决拟合-改进梯度冲突,理论上消除了流形法向漂移,并在D4RL实验中展示了最先进的性能。