实体 Gaussian policies

Gaussian policies

PulseAugur coverage of Gaussian policies — every cluster mentioning Gaussian policies across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_42477 · May 20 · 15:14

新的强化学习策略通过一次性生成控制提高效率

研究人员开发了新的强化学习策略方法，旨在提高效率和表达能力。一种方法，基于分数的一次性均值流策略优化（SOM），使用Q函数分数和概率流ODE构建目标速度场，通过减少训练和推理时间，在在线强化学习中实现了最先进的性能。另一项开发，随机均值流策略（SMFP），提供了一个一次性生成策略类别，通过均值流变换将噪声映射到动作，为离策略设置中稳定和探索性的策略改进提供了统一的目标。
TOOL · CL_21970 · May 8 · 04:00

新的ME-AM框架通过熵最大化增强离线强化学习

研究人员引入了最大熵伴随匹配（ME-AM），一个旨在改进离线强化学习的新框架。该方法通过结合熵最大化和混合行为先验，解决了现有方法中的局限性，如流行度偏差和支持绑定。ME-AM旨在使智能体能够更有效地从离线数据集中学习最优策略，即使在低密度区域也能学习，并探索分布外区域以获得更高奖励。

新的强化学习策略通过一次性生成控制提高效率

新的ME-AM框架通过熵最大化增强离线强化学习