PulseAugur
实时 07:16:59
实体 Rubric-Conditioned Self-Distillation

Rubric-Conditioned Self-Distillation

PulseAugur coverage of Rubric-Conditioned Self-Distillation — every cluster mentioning Rubric-Conditioned Self-Distillation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_97813 ·

    新的基于规则的自蒸馏增强了LLM的推理能力

    研究人员推出了一种新颖的、用于训练后推理语言模型的框架——基于规则的自蒸馏。该方法利用来自规则的结构化、细粒度反馈来指导自蒸馏,比传统的标量奖励信号提供更详细的信用分配。该框架包含一个两阶段流程:首先生成任务特定的规则,然后训练一个由规则指导的推理器。在科学推理基准上的评估表明,该方法有效地将规则标准转化为令牌级指导,其性能优于GRPO和OPSD等现有方法。