PulseAugur
实时 14:41:55
实体 Stochastic MeanFlow Policies

Stochastic MeanFlow Policies

PulseAugur coverage of Stochastic MeanFlow Policies — every cluster mentioning Stochastic MeanFlow Policies across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-20 research_milestone Introduction of a new generative policy class for reinforcement learning. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_42477 ·

    新的强化学习策略通过一次性生成控制提高效率

    研究人员开发了新的强化学习策略方法,旨在提高效率和表达能力。一种方法,基于分数的一次性均值流策略优化(SOM),使用Q函数分数和概率流ODE构建目标速度场,通过减少训练和推理时间,在在线强化学习中实现了最先进的性能。另一项开发,随机均值流策略(SMFP),提供了一个一次性生成策略类别,通过均值流变换将噪声映射到动作,为离策略设置中稳定和探索性的策略改进提供了统一的目标。