研究人员开发了RecurGuard,一个新颖的运行时监控系统,旨在检测和防止针对大型语言模型的拒绝服务攻击。这些攻击通过诱导模型在诱饵任务上消耗过多的令牌来利用模型的推理能力,从而导致成本增加且没有有用的输出。RecurGuard实时分析模型的推理轨迹,跟踪复发率和体积增长等信号,以识别异常行为并提前终止生成。评估表明,RecurGuard在标准任务上以较低的误报率有效检测了高比例的已知攻击,尽管自适应攻击仍然是一个挑战。 AI
影响 引入了一种针对复杂LLM攻击的新防御机制,有望提高AI系统的安全性和可靠性。
排序理由 该集群包含一篇详细介绍检测特定类型LLM攻击新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →