实体 Pave-GRPO

Pave-GRPO

PulseAugur coverage of Pave-GRPO — every cluster mentioning Pave-GRPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_66209 · Jun 2 · 04:00

Pave-GRPO 通过速度分解增强生成模型对齐

研究人员推出 Pave-GRPO，一种改进流式生成模型与人类偏好对齐的新方法。该技术通过将粗粒度过渡分解为更精细的子轨迹来重新构建 GRPO 目标，使奖励反馈能够触及更多中间去噪步骤。这种方法在不增加生成成本的情况下增强了对齐的粒度，从而在各种奖励设置下实现更全面的偏好优化和性能提升。