研究人员开发了DRIFT,一个无需外部专家监督即可增强大型语言模型自我改进能力的新型框架。DRIFT采用难度路由和节律门控来管理模型的学习过程,将探索集中在关键的推理领域和问题级别进展上。在五个基准和三个模型规模上的评估表明,DRIFT的表现优于GRPO和SDPO等现有方法,取得了79.5%的新SOTA平均分数,并显著提高了ToolUse基准的准确性。 AI
影响 这项研究可能带来更高效、更有效的LLM训练,减少在复杂推理任务中对人类监督的依赖。
排序理由 该集群描述了一篇详细介绍LLM自我改进新框架的新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →