研究人员开发了一种使用内部反馈强化学习(RLIF)训练大型语言模型的新框架。这种多奖励方法将训练信号分解为来自集群投票的答案级奖励和基于代币自我确定性的完成级奖励。该方法结合了基于GDPO的归一化和KL-Cov正则化,以增强稳定性和防止崩溃,在没有外部真实监督的情况下实现了接近监督方法的性能。 AI
影响 这个新的RLIF框架为LLM提供了一种更稳定、更强大的无监督训练方法,有可能在不依赖外部人类监督的情况下提高其推理能力。
排序理由 该集群包含一篇详细介绍LLM训练新方法的学术论文。
- KL-Cov regularization
- Large Language Models
- Reinforcement Learning from Internal Feedback
- GDPO-based normalization
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →