来自快手Kwaipilot团队的研究人员开发了一个名为SRPO的新型强化学习框架,旨在提高大型语言模型的效率和性能。该新方法通过采用两阶段训练过程,解决了标准GRPO在样本效率和跨域优化冲突等方面的局限性。SRPO在数学和代码基准测试中展示了最先进的性能,达到了DeepSeek-R1-Zero的水平,同时仅需十分之一的训练步数。 AI
排序理由 来自非前沿实验室的新型训练方法和模型的开源发布,取得了具有竞争力的基准结果。
- AIME24
- DeepSeek-R1
- DeepSeek-R1-Zero
- Kuaishou
- Kwai AI
- Kwaipilot
- LiveCodeBench
- LLMs
- OpenAI
- Qwen2.5-32B
- SRPO-Qwen-32B
- GRPO
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →