研究人员开发了一种新颖的方法,通过利用本地微调的大型语言模型(LLM)供应链代码中的漏洞来窃取敏感信息。该技术超越了被动权重投毒,实现了主动执行劫持,使模型能够记住并泄露特定的秘密,如 API 密钥或个人标识符。该攻击在窃取秘密方面实现了超过 98% 的准确率,同时不影响模型的首要功能,并能绕过 DP-SGD 和代码审计等常见防御措施。 AI
影响 新的攻击向量展示了 LLM 微调存在重大的供应链风险,可能影响数据安全和隐私。
排序理由 学术论文,详细介绍了针对 LLM 微调的新攻击向量。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →