English(EN) DRIFT: Difficulty Routing Self-DIstillation with Rhythm-Gated Exploration and Success BuFfer Training

新的DRIFT框架提升LLM自我改进能力，创SOTA基准 · 追踪2个来源

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-29 14:20

研究人员开发了DRIFT，一个无需外部专家监督即可增强大型语言模型自我改进能力的新型框架。DRIFT采用难度路由和节律门控来管理模型的学习过程，将探索集中在关键的推理领域和问题级别进展上。在五个基准和三个模型规模上的评估表明，DRIFT的表现优于GRPO和SDPO等现有方法，取得了79.5%的新SOTA平均分数，并显著提高了ToolUse基准的准确性。 AI

影响这项研究可能带来更高效、更有效的LLM训练，减少在复杂推理任务中对人类监督的依赖。

排序理由该集群描述了一篇详细介绍LLM自我改进新框架的新研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Haisen Luo, Yiwei Liu, Haoning Wang, Dan Liu, Junxi Yin, Haotian Wang, Lei Zhang, Xiaoyu Tian, Shuaiting Chen, Yuansheng Song, Baoyan Guo, Xiongfei Yan, Bolan Yang, Chengwei Liu, Ming Cui, Jiong Chen · 2026-06-30 04:00

DRIFT：基于节奏门控探索和成功缓冲区训练的难度路由自蒸馏

arXiv:2606.30345v1 Announce Type: cross Abstract: Enabling large language models to achieve stable self-improvement without external expert supervision remains a central challenge in complex reasoning tasks. Existing self-distillation and reinforcement learning methods lack expli…
arXiv cs.AI TIER_1 English(EN) · Jiong Chen · 2026-06-29 14:20

DRIFT：基于节奏门控探索和成功缓冲区训练的难度路由自蒸馏

Enabling large language models to achieve stable self-improvement without external expert supervision remains a central challenge in complex reasoning tasks. Existing self-distillation and reinforcement learning methods lack explicit mechanisms for tracking problem-level learning…

报道来源 [2]

DRIFT：基于节奏门控探索和成功缓冲区训练的难度路由自蒸馏

DRIFT：基于节奏门控探索和成功缓冲区训练的难度路由自蒸馏

相关实体

相关话题