English(EN) Weak-to-Strong Elicitation via Mismatched Wrong Drafts

新方法使用错误草稿来提升LLM的数学能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员开发了一种名为“通过不匹配的错误草稿进行弱到强诱导”的新颖技术，以提高大型语言模型的能力。该方法涉及使用来自较小的、特定领域的模型的数学上不正确的草稿来训练一个更大的模型，其性能优于标准的强化学习微调。该技术在MATH-500和分布外AIME 2025/2026基准测试中显示出显著的提升，为Mathstral-7B模型实现了新的最先进水平。 AI

影响这项研究提出了一种更有效的方法来增强LLM在数学等复杂任务上的性能，有可能减少对广泛的on-policy微调的需求。

排序理由该集群描述了一篇详细介绍改进LLM能力的新颖方法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Wei Deng · 2026-06-26 04:00

通过不匹配的错误草稿进行弱到强诱导

arXiv:2605.17314v2 Announce Type: replace-cross Abstract: We consider whether off-policy experience from a smaller, weaker model can elicit capability in a stronger learner that on-policy RL fine-tuning (e.g., GRPO) does not reach. We find that injecting mathematically wrong draf…

报道来源 [1]

通过不匹配的错误草稿进行弱到强诱导

相关实体

相关话题