English(EN) Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

在线策略蒸馏更新被发现稀疏且几何特征独特

作者 PulseAugur 编辑部 · [3 个来源] · 2026-06-11 00:00

一篇新的研究论文探讨了在线策略蒸馏（OPD）的机制，这是一种结合在线策略学生轨迹和密集教师监督的训练后技术。研究表明，OPD更新很小且在坐标上是稀疏的，主要影响前馈网络（FFN）模块。这种稀疏性是有功能的，因为仅训练识别出的子网络即可接近完全训练的性能。此外，研究表明，虽然更新在数值上是满秩的，但它们在频谱上是集中的，并且与原始权重的秩主奇异子空间不一致，这表明OPD保留了在线策略训练后编辑的独特几何特性，而不是作为标准的密集参数重写。 AI

影响揭示了在线策略蒸馏会产生稀疏、几何特征独特的参数更新，表明这是一种大型模型的独特编辑机制。

排序理由该集群包含一篇详细介绍机器学习技术新研究发现的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.AI TIER_1 English(EN) · Anhao Zhao, Junlong Tong, Yingqi Fan, Ping Nie, Wenjie Li, Xiaoyu Shen · 2026-06-17 04:00

PowerOPD：通过有界幂变换稳定在线策略蒸馏

arXiv:2606.17199v1 Announce Type: cross Abstract: Standard on-policy distillation (OPD) for large language models estimates the reverse-KL objective using student-sampled tokens, yielding an unbiased single-sample Monte Carlo estimator that avoids vocabulary-wide computation. How…
arXiv cs.LG TIER_1 English(EN) · Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye · 2026-06-15 04:00

密集监督，稀疏更新：关于在线策略蒸馏的稀疏性和几何学

arXiv:2606.13657v2 Announce Type: replace Abstract: On-policy distillation (\textsc{OPD}) has recently become a prominent post-training recipe by combining two desirable ingredients: on-policy student trajectories and dense teacher supervision. However, how this hybrid changes a …
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-11 00:00

密集监督，稀疏更新：关于在线策略蒸馏的稀疏性和几何学

On-policy distillation exhibits sparse parameter updates that are distributed across layers and favor FFN components, while maintaining geometric properties distinct from standard dense parameter rewriting.

报道来源 [3]

PowerOPD：通过有界幂变换稳定在线策略蒸馏

密集监督，稀疏更新：关于在线策略蒸馏的稀疏性和几何学

密集监督，稀疏更新：关于在线策略蒸馏的稀疏性和几何学

相关实体

相关话题