English(EN) DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training

大语言模型现可通过DART训练识别人口统计学差异而不会造成危害

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-18 05:28

研究人员开发了一种名为DART（蒸馏-审计-修复训练）的新训练方法，以解决大型语言模型中的“危害漂移”问题。当模型为了安全而变得过于谨慎，避免承认事实性人口统计学差异，从而导致不正确或无用的响应时，就会发生这种漂移。DART通过蒸馏推理、审计有害漂移，然后修复有问题的输出来工作。这种方法显著提高了Llama-3-8B-Instruct的准确性并减少了有害漂移，表明安全性和准确性是可以平衡的。 AI

排序理由该条目描述了一篇详细介绍大语言模型新训练方法的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-18 05:28

DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training

Large language models (LLMs) tuned for safety often avoid acknowledging demographic differences, even when such acknowledgment is factually correct (e.g., ancestry-based disease incidence) or contextually justified (e.g., religious hiring preferences). This identity-blindness yie…

报道来源 [1]

DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training

相关话题