PulseAugur
实时 12:16:24
English(EN) Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

在线策略蒸馏更新被发现稀疏且几何特征独特

一篇新的研究论文探讨了在线策略蒸馏(OPD)的机制,这是一种结合在线策略学生轨迹和密集教师监督的训练后技术。研究表明,OPD更新很小且在坐标上是稀疏的,主要影响前馈网络(FFN)模块。这种稀疏性是有功能的,因为仅训练识别出的子网络即可接近完全训练的性能。此外,研究表明,虽然更新在数值上是满秩的,但它们在频谱上是集中的,并且与原始权重的秩主奇异子空间不一致,这表明OPD保留了在线策略训练后编辑的独特几何特性,而不是作为标准的密集参数重写。 AI

影响 揭示了在线策略蒸馏会产生稀疏、几何特征独特的参数更新,表明这是一种大型模型的独特编辑机制。

排序理由 该集群包含一篇详细介绍机器学习技术新研究发现的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye ·

    Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

    arXiv:2606.13657v2 Announce Type: replace Abstract: On-policy distillation (\textsc{OPD}) has recently become a prominent post-training recipe by combining two desirable ingredients: on-policy student trajectories and dense teacher supervision. However, how this hybrid changes a …

  2. Hugging Face Daily Papers TIER_1 English(EN) ·

    Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

    On-policy distillation exhibits sparse parameter updates that are distributed across layers and favor FFN components, while maintaining geometric properties distinct from standard dense parameter rewriting.