PulseAugur
实时 19:31:06
实体 Gaussian Trust Region Policy Optimization

Gaussian Trust Region Policy Optimization

PulseAugur coverage of Gaussian Trust Region Policy Optimization — every cluster mentioning Gaussian Trust Region Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_68358 ·

    新的GTR方法增强了强化学习的适应性

    研究人员开发了一种名为高斯信任域策略优化(GTR)的新方法,旨在提高强化学习智能体在非平稳环境中的适应能力。与可能陷入低效局部更新的标准近端策略优化(PPO)不同,GTR使用高斯核重塑信任域,允许在必要时进行更显著的策略偏差。这种方法,加上用于增强鲁棒性的混合高斯锚点,在包括游戏、机器人和语言模型后训练在内的各种应用中表现强劲。