PulseAugur
实时 13:19:22
实体 Pave-GRPO

Pave-GRPO

PulseAugur coverage of Pave-GRPO — every cluster mentioning Pave-GRPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_66209 ·

    Pave-GRPO 通过速度分解增强生成模型对齐

    研究人员推出 Pave-GRPO,一种改进流式生成模型与人类偏好对齐的新方法。该技术通过将粗粒度过渡分解为更精细的子轨迹来重新构建 GRPO 目标,使奖励反馈能够触及更多中间去噪步骤。这种方法在不增加生成成本的情况下增强了对齐的粒度,从而在各种奖励设置下实现更全面的偏好优化和性能提升。