PulseAugur
实时 12:21:02
English(EN) DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning

新方法过滤用于LLM微调的降级安全数据

研究人员开发了DataShield,一种用于识别和过滤用于微调大型语言模型(LLM)的良性数据集中的降级安全数据的新方法。该方法量化了每个数据样本对模型合规行为的贡献,从而能够隔离高风险子集。在Llama3和Qwen2.5等模型上的实验证明了DataShield在精确定位可能无意中降低LLM安全性(尤其是在开放式问答任务中)的数据方面的有效性。 AI

影响 提供了一种以数据为中心的方法来缓解LLM微调过程中的安全降级,有可能提高模型的鲁棒性。

排序理由 该集群包含一篇详细介绍LLM安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Junbo Zhang, Qianli Zhou, Xinyang Deng, Wen Jiang, Jie Pan, Jinbiao Zhu ·

    DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning

    arXiv:2606.00160v1 Announce Type: cross Abstract: Large language models (LLMs) suffer from degraded safety capabilities even when fine-tuned with benign datasets. However, existing methods for identifying safety-degrading samples in benign datasets suffer from high computational …