一篇新近发表在arXiv上的综述论文详述了在线策略蒸馏(OPD)技术,该技术用于将大型、昂贵语言模型的能力迁移到更小、更易于部署的模型中。与传统的模仿学习不同,OPD将蒸馏重新构建为一个迭代纠正过程,其中教师模型对学生模型的实际输出提供反馈。这种方法旨在减轻在学生模型根据完美的教师前缀进行训练但在推理过程中生成自己的文本时出现的复合错误,即暴露偏差,尤其是在更长、需要密集推理的任务中。该综述沿着关键设计轴组织了该领域,并讨论了其与强化学习和模仿学习的联系。 AI
影响 这项技术可以使强大的LLM能力更有效地部署到更小、更具成本效益的模型中。
排序理由 该集群包含一篇关于大型语言模型特定技术的综述论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- $f$-divergence
- imitation learning
- large-language models
- Mingyang Song
- On-Policy Distillation
- reinforcement learning
- reinforcement learning from human feedback
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →