研究人员开发了一种称为词汇丢弃的技术,以解决协同进化语言模型训练中的多样性崩溃问题。该方法通过对提议者模型的输出 logits 应用随机掩码,防止其生成重复性问题。在数学推理任务上使用 Qwen3-4B 和 Qwen3-8B 模型进行的实验表明,词汇丢弃保持了提议者的多样性,并显著提高了求解器的性能,尤其是在具有挑战性的基准测试上。 AI
影响 引入了一种提高 LLM 训练多样性和推理任务性能的方法。
排序理由 这是一篇详细介绍 LLM 训练新技术的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →