PulseAugur
实时 15:48:20
实体 Sign-Gated On-Policy Distillation

Sign-Gated On-Policy Distillation

PulseAugur coverage of Sign-Gated On-Policy Distillation — every cluster mentioning Sign-Gated On-Policy Distillation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_87108 ·

    新的蒸馏方法提升AI模型的数学推理能力

    研究人员开发了符号门控策略内蒸馏(SG-OPD),这是策略内蒸馏技术的一项进展。该新方法引入了一个二元验证器来过滤教师信号,从而提高了数学推理任务的性能。SG-OPD通过确保学生和教师轨迹之间更好的对齐以及在token级别更可靠的教师偏好,解决了标准策略内蒸馏的局限性。实验表明,SG-OPD在数学推理基准测试中,在每样本级别平均比标准策略内蒸馏高出1.98%,在每问题级别高出7.50%,取得了显著的提升。