PulseAugur
实时 14:51:47
实体 Counteraction-Aware Multi-Teacher On-Policy Distillation

Counteraction-Aware Multi-Teacher On-Policy Distillation

PulseAugur coverage of Counteraction-Aware Multi-Teacher On-Policy Distillation — every cluster mentioning Counteraction-Aware Multi-Teacher On-Policy Distillation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_53546 ·

    新的蒸馏方法在域专业化后恢复LLM通用能力

    研究人员开发了一种名为对抗感知多教师在线策略蒸馏(CaMOPD)的新方法,以解决大型语言模型(LLM)在域专业化后恢复通用能力的挑战。现有方法在通用教师的训练数据分布未知时常常遇到困难。CaMOPD通过使用解耦的交替训练和基于差距的样本选择策略来解决这个问题。这种方法允许为通用恢复进行专门更新,定期检查域保持,并将纠正信号集中在教师-学生对数概率差距较大的样本上。实验表明,CaMOPD在通用恢复方面优于基线方法,同时在角色扮演对话和医…