PulseAugur
实时 12:49:11
实体 MeanFlow models

MeanFlow models

PulseAugur coverage of MeanFlow models — every cluster mentioning MeanFlow models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_50951 ·

    新研究推进机器人和LLM的策略优化

    研究人员引入了几种新方法来增强强化学习中的策略优化,特别是针对涉及机器人和大型语言模型(LLM)的复杂任务。MODIP旨在通过使用世界模型来指导适应,从而高效地微调机器人学习中的扩散策略,与标准的模仿学习相比,提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外,CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…