一项新的研究论文揭示,对大型语言模型(LLMs)进行安全分类的微调可能会无意中产生新的漏洞。虽然这些模型在标准评估中可能表现良好,但它们可能会容易受到规避攻击,这些攻击会保持模型的行为但改变输入。该研究强调了微调如何专门化继承的模型结构,从而导致脆弱的指示器规则,这些规则在保持对保留数据的准确性的同时,也扩大了攻击面。 AI
影响 LLMs的安全微调可能需要更鲁棒的评估方法,这些方法需要考虑语义漂移和保持转换的攻击。
排序理由 该集群包含一篇详细介绍LLM漏洞新发现的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →