实体
Gaussian policies
Gaussian policies
PulseAugur coverage of Gaussian policies — every cluster mentioning Gaussian policies across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的强化学习策略通过一次性生成控制提高效率
研究人员开发了新的强化学习策略方法,旨在提高效率和表达能力。一种方法,基于分数的一次性均值流策略优化(SOM),使用Q函数分数和概率流ODE构建目标速度场,通过减少训练和推理时间,在在线强化学习中实现了最先进的性能。另一项开发,随机均值流策略(SMFP),提供了一个一次性生成策略类别,通过均值流变换将噪声映射到动作,为离策略设置中稳定和探索性的策略改进提供了统一的目标。
-
New ME-AM framework enhances offline RL with entropy maximization
Researchers have introduced Maximum Entropy Adjoint Matching (ME-AM), a new framework designed to improve offline reinforcement learning. This method addresses limitations in existing approaches, such as popularity bias…