研究人员推出了一种名为 Compute Aligned Training 的新训练方法,旨在更好地优化大型语言模型 (LLM) 在推理期间的性能。传统的监督微调 (Supervised Fine-Tuning) 和强化学习 (Reinforcement Learning) 等方法没有考虑到 LLM 在测试时实际的使用方式,而这通常涉及聚合或过滤输出。这种新方法将训练目标与这些特定的测试时策略对齐,推导出新的损失函数,以在这些条件下最大化性能。实证结果表明,与标准训练技术相比,该方法显著提高了测试时扩展性。 AI
影响 引入了一种新颖的训练方法,可以提高 LLM 在推理时的效率和性能。
排序理由 这是一篇描述 LLM 新训练方法的学术论文。
- Adam Ousherovitch
- arXiv
- Compute Aligned Training
- Large Language Model
- Reinforcement Learning
- Supervised Fine-Tuning
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →