English(EN) Can GRPO be 10x Efficient? Kwai AI’s SRPO Suggests Yes with SRPO

Kwai AI的SRPO以10倍的训练步数实现了DeepSeek-R1-Zero的性能

作者 PulseAugur 编辑部 · [1 个来源] · 2025-04-24 02:30

来自快手Kwaipilot团队的研究人员开发了一个名为SRPO的新型强化学习框架，旨在提高大型语言模型的效率和性能。该新方法通过采用两阶段训练过程，解决了标准GRPO在样本效率和跨域优化冲突等方面的局限性。SRPO在数学和代码基准测试中展示了最先进的性能，达到了DeepSeek-R1-Zero的水平，同时仅需十分之一的训练步数。 AI

排序理由来自非前沿实验室的新型训练方法和模型的开源发布，取得了具有竞争力的基准结果。

在 Synced Review 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Kwai AI的SRPO以10倍的训练步数实现了DeepSeek-R1-Zero的性能

报道来源 [1]

Synced Review TIER_1 English(EN) · Synced · 2025-04-24 02:30

Can GRPO be 10x Efficient? Kwai AI’s SRPO Suggests Yes with SRPO

<p>Kwai AI's SRPO framework slashes LLM RL post-training steps by 90% while matching DeepSeek-R1 performance in math and code. This two-stage RL approach with history resampling overcomes GRPO limitations.</p> The post <a href="https://syncedreview.com/2025/04/23/can-grpo-be-10x-…

报道来源 [1]

Can GRPO be 10x Efficient? Kwai AI’s SRPO Suggests Yes with SRPO

相关实体

相关话题