研究人员开发了一个“Swarm-Consensus Defense”系统,成功防御了针对云端大型语言模型的 98.2% 的对抗性攻击。该系统利用多个本地防御者之间的共识机制,并配备了一个自动修复组件,在第 400 轮时实现了 100% 的防御率。即使是一个小型、仅有 30 亿参数的本地运行模型,在 500 轮针对各种攻击类别的测试中也未出现任何失误。 AI
影响 通过展示针对对抗性攻击的强大防御能力,增强了 LLM 的安全性,可能提高了云端 AI 服务的可靠性。
排序理由 该集群描述了一种针对 LLM 对抗性攻击的新型防御机制,详情请参阅技术帖子。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →