English(EN) On the Position Bias of On-Policy Distillation

新的蒸馏方法解决了强化学习中的位置偏差问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-21 17:20

研究人员在 On-Policy Distillation (OPD) 中发现了一个位置偏差问题，OPD 是一种用于提高强化学习效率的方法。他们发现 OPD 的标准 KL 目标统一加权所有 token，但更长 rollout 中的后期 token 会降低监督质量。这导致性能与仅使用初始 30% 的 token 相当，而最后 30% 的 token 学习效果甚微。为了解决这个问题，该团队开发了 Importance-Weighted On-Policy Distillation (IW-OPD)，该方法根据学生模型和教师模型之间累积的分布差异分配权重，有效地上调了早期 token。IW-OPD 在 AIME-2025 基准测试中表现出更快的收敛速度、更高的学习效率和更好的最终性能，提高了多达 6.9 个点。 AI

影响通过解决蒸馏方法中的 token 偏差，提高了强化学习的效率和性能。

排序理由详细介绍强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yifei Wang · 2026-06-21 17:20

论On-Policy Distillation的位置偏差

On-Policy Distillation (OPD) improves the learning efficiency of standard reinforcement learning through dense, token-level supervision from teachers. In the standard KL objective of OPD, token-level losses are uniformly averaged, implying equal weights for all tokens. However, w…

报道来源 [1]

论On-Policy Distillation的位置偏差

相关实体

相关话题