研究人员开发了一种名为对抗感知多教师在线策略蒸馏(CaMOPD)的新方法,以解决大型语言模型(LLM)在域专业化后恢复通用能力的挑战。现有方法在通用教师的训练数据分布未知时常常遇到困难。CaMOPD通过使用解耦的交替训练和基于差距的样本选择策略来解决这个问题。这种方法允许为通用恢复进行专门更新,定期检查域保持,并将纠正信号集中在教师-学生对数概率差距较大的样本上。实验表明,CaMOPD在通用恢复方面优于基线方法,同时在角色扮演对话和医学推理等场景中保持了域特定行为。 AI
影响 这项研究提供了一种新颖的方法来通过恢复在域专业化过程中丢失的通用能力来提高LLM的性能,有望产生更通用的模型。
排序理由 该集群包含一篇详细介绍LLM能力恢复新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →