PulseAugur
实时 14:50:13
实体 RL policy search

RL policy search

PulseAugur coverage of RL policy search — every cluster mentioning RL policy search across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_77132 ·

    新策略通过深度优先而非保真度优先来增强噪声演化算法

    研究人员开发了一种名为概率精英成员资格(PEM)的新方法,用于在固定评估预算下改进噪声演化策略。该方法优先探索更多的分布更新(深度),而不是精炼每次更新的准确性(保真度)。PEM 整合了排名不确定性,以在减少离散度的同时保持条件均值更新,从而在预算受限的情况下有效优化策略搜索和超参数调整。