两篇新论文探讨了用于大型语言模型的先进自蒸馏技术,旨在提高推理能力和效率。第一篇论文介绍了“Power Distribution Bridges”,它连接了采样、自奖励强化学习和自蒸馏,表明功率分布可以优化 KL 正则化强化学习并实现一种新的离线蒸馏形式。第二篇论文提出了“基于偏好的自蒸馏”(PBSD),超越了简单的 KL 匹配,采用了一种奖励正则化目标来优化偏好差距,从而提高了训练稳定性和在推理及工具使用基准测试上的性能。 AI
影响 这些新的自蒸馏方法可能带来更高效的大型语言模型训练,并提高其推理能力,从而可能降低推理成本。
排序理由 arXiv 上发表的两篇学术论文介绍了大型语言模型中自蒸馏的新方法。
- arXiv
- KL-regularized RL
- LLMs
- mathematical reasoning
- Power Distribution Bridges
- Preference-Based Self-Distillation
- Self-Distillation
- Self-Reward RL
- tool-use benchmarks
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →