English(EN) DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning

新方法过滤用于LLM微调的降级安全数据

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了DataShield，一种用于识别和过滤用于微调大型语言模型（LLM）的良性数据集中的降级安全数据的新方法。该方法量化了每个数据样本对模型合规行为的贡献，从而能够隔离高风险子集。在Llama3和Qwen2.5等模型上的实验证明了DataShield在精确定位可能无意中降低LLM安全性（尤其是在开放式问答任务中）的数据方面的有效性。 AI

影响提供了一种以数据为中心的方法来缓解LLM微调过程中的安全降级，有可能提高模型的鲁棒性。

排序理由该集群包含一篇详细介绍LLM安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Junbo Zhang, Qianli Zhou, Xinyang Deng, Wen Jiang, Jie Pan, Jinbiao Zhu · 2026-06-02 04:00

DataShield：用于 LLM 良性指令微调的、会降低安全性的数据过滤

arXiv:2606.00160v1 Announce Type: cross Abstract: Large language models (LLMs) suffer from degraded safety capabilities even when fine-tuned with benign datasets. However, existing methods for identifying safety-degrading samples in benign datasets suffer from high computational …

报道来源 [1]

DataShield：用于 LLM 良性指令微调的、会降低安全性的数据过滤

相关实体

相关话题