研究人员开发了DataShield,一种用于识别和过滤用于微调大型语言模型(LLM)的良性数据集中的降级安全数据的新方法。该方法量化了每个数据样本对模型合规行为的贡献,从而能够隔离高风险子集。在Llama3和Qwen2.5等模型上的实验证明了DataShield在精确定位可能无意中降低LLM安全性(尤其是在开放式问答任务中)的数据方面的有效性。 AI
影响 提供了一种以数据为中心的方法来缓解LLM微调过程中的安全降级,有可能提高模型的鲁棒性。
排序理由 该集群包含一篇详细介绍LLM安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →