新的强化学习方法将 LLM 预训练时间缩短 66%

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-14 00:00

研究人员开发了一种名为 AC-ODM 的新方法，该方法使用强化学习来优化大型语言模型 (LLM) 的预训练数据组成。该方法显著提高了样本效率，将预训练时间缩短了高达 66%，同时提高了在 MMLU 和 HumanEval 等基准测试中的下游准确性。AC-ODM 提供了代理和直接训练模式的灵活性，并且计算开销仅增加极少。 AI

影响该方法可以显著降低 LLM 预训练所需的计算成本和时间，从而可能加速开发和部署。

排序理由该条目是一篇研究论文，详细介绍了一种新的 LLM 预训练方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-14 00:00

AC-ODM：用于样本高效 LLM 预训练的 Actor-Critic 在线数据混合

AC-ODM optimizes pretraining data composition for LLMs using reinforcement learning to improve convergence speed and downstream accuracy while maintaining computational efficiency.

报道来源 [1]

AC-ODM：用于样本高效 LLM 预训练的 Actor-Critic 在线数据混合

相关实体

相关话题