English(EN) A Survey of On-Policy Distillation for Large Language Models

综述详述在线策略蒸馏以实现高效LLM迁移

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

一篇新近发表在arXiv上的综述论文详述了在线策略蒸馏（OPD）技术，该技术用于将大型、昂贵语言模型的能力迁移到更小、更易于部署的模型中。与传统的模仿学习不同，OPD将蒸馏重新构建为一个迭代纠正过程，其中教师模型对学生模型的实际输出提供反馈。这种方法旨在减轻在学生模型根据完美的教师前缀进行训练但在推理过程中生成自己的文本时出现的复合错误，即暴露偏差，尤其是在更长、需要密集推理的任务中。该综述沿着关键设计轴组织了该领域，并讨论了其与强化学习和模仿学习的联系。 AI

影响这项技术可以使强大的LLM能力更有效地部署到更小、更具成本效益的模型中。

排序理由该集群包含一篇关于大型语言模型特定技术的综述论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Mingyang Song, Mao Zheng · 2026-06-19 04:00

A Survey of On-Policy Distillation for Large Language Models

arXiv:2604.00626v4 Announce Type: replace-cross Abstract: As Large Language Models continue to grow in both capability and cost, transferring frontier capabilities into smaller, deployable students has become an important engineering problem, and knowledge distillation remains a …

报道来源 [1]

A Survey of On-Policy Distillation for Large Language Models

相关实体

相关话题