研究人员开发了一种名为ACOER(自适应仅正确效率奖励)的新方法,以稳定大型语言模型用于高效推理的训练。现有的GRPO(组相对策略优化)等方法经常导致奖励崩溃,降低模型性能。ACOER通过将简洁奖励隔离到正确答案,并防止通过动态归一化和惩罚调整进行过度压缩来解决此问题。实验表明,ACOER在提高准确性的同时显著减少了令牌生成。 AI
影响 这项研究为训练用于高效推理的LLM提供了一种更稳定的方法,有望带来更强大、更简洁的模型。
排序理由 该集群包含一篇详细介绍大型语言模型训练新方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →