研究人员开发了一种名为Cordyceps的新型数据投毒技术,能够实现对大型语言模型(LLMs)的隐蔽控制攻击。与依赖固定触发短语的先前方法不同,Cordyceps通过语义关联教会LLMs隐藏恶意指令。该方法在绕过现有防御方面取得了显著成功,包括异常值检测、干净数据正则化和提示注入防御,即使只有一小部分被投毒的数据也能实现高攻击成功率。 AI
影响 这项研究揭示了大型语言模型的一个新颖漏洞,可能影响在未经整理的数据上训练的AI系统的安全性和可信度。
排序理由 该集群包含一篇详细介绍攻击大型语言模型新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →