PulseAugur
实时 12:20:09
实体 Savgo

Savgo

PulseAugur coverage of Savgo — every cluster mentioning Savgo across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14186 ·

    SAVGO算法利用几何学改进强化学习策略更新

    研究人员推出了一种新颖的强化学习算法SAVGO,旨在改进连续控制任务中的策略更新。SAVGO学习一个联合状态-动作嵌入空间,其中相似的动作-值估计由高余弦相似度表示。这种几何方法允许策略改进朝着更高价值区域引导,统一了表示学习、值估计和策略优化。在MuJoCo基准测试上的评估表明,SAVGO在复杂、高维任务上的表现优于现有方法。