PulseAugur
实时 13:25:53
English(EN) Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation

新的蒸馏方法在域专业化后恢复LLM通用能力

研究人员开发了一种名为对抗感知多教师在线策略蒸馏(CaMOPD)的新方法,以解决大型语言模型(LLM)在域专业化后恢复通用能力的挑战。现有方法在通用教师的训练数据分布未知时常常遇到困难。CaMOPD通过使用解耦的交替训练和基于差距的样本选择策略来解决这个问题。这种方法允许为通用恢复进行专门更新,定期检查域保持,并将纠正信号集中在教师-学生对数概率差距较大的样本上。实验表明,CaMOPD在通用恢复方面优于基线方法,同时在角色扮演对话和医学推理等场景中保持了域特定行为。 AI

影响 这项研究提供了一种新颖的方法来通过恢复在域专业化过程中丢失的通用能力来提高LLM的性能,有望产生更通用的模型。

排序理由 该集群包含一篇详细介绍LLM能力恢复新方法的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Tianlei Chen, Jiao Ou, Ziyuan Liu, Ruiming Tang, Jian Liang, Han Li ·

    Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation

    arXiv:2605.27115v1 Announce Type: new Abstract: Domain specialization can improve LLM behavior in vertical domains, but often weakens the general capabilities inherited from the original model. Recent Multi-Teacher On-Policy Distillation (MOPD) pipelines recover model capabilitie…

  2. arXiv cs.AI TIER_1 English(EN) · Han Li ·

    Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation

    Domain specialization can improve LLM behavior in vertical domains, but often weakens the general capabilities inherited from the original model. Recent Multi-Teacher On-Policy Distillation (MOPD) pipelines recover model capabilities by supervising student-generated trajectories …