研究人员开发了一种名为DART(蒸馏-审计-修复训练)的新训练方法,以解决大型语言模型中的“危害漂移”问题。当模型为了安全而变得过于谨慎,避免承认事实性人口统计学差异,从而导致不正确或无用的响应时,就会发生这种漂移。DART通过蒸馏推理、审计有害漂移,然后修复有问题的输出来工作。这种方法显著提高了Llama-3-8B-Instruct的准确性并减少了有害漂移,表明安全性和准确性是可以平衡的。 AI
排序理由 该条目描述了一篇详细介绍大语言模型新训练方法的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →