实体 Stochastic MeanFlow Policies

Stochastic MeanFlow Policies

PulseAugur coverage of Stochastic MeanFlow Policies — every cluster mentioning Stochastic MeanFlow Policies across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

时间线

2026-05-20 research_milestone Introduction of a new generative policy class for reinforcement learning. 来源

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_42477 · May 20 · 15:14

新的强化学习策略通过一次性生成控制提高效率

研究人员开发了新的强化学习策略方法，旨在提高效率和表达能力。一种方法，基于分数的一次性均值流策略优化（SOM），使用Q函数分数和概率流ODE构建目标速度场，通过减少训练和推理时间，在在线强化学习中实现了最先进的性能。另一项开发，随机均值流策略（SMFP），提供了一个一次性生成策略类别，通过均值流变换将噪声映射到动作，为离策略设置中稳定和探索性的策略改进提供了统一的目标。

新的强化学习策略通过一次性生成控制提高效率