研究人员开发了一个自动化框架,用于测试大型语言模型(LLM)系统指令在抵御编码攻击方面的安全性。这些指令通常包含API密钥和内部策略等敏感数据,其泄露会带来重大的安全风险。该框架发现,当提取请求被伪装成结构化输出任务时,模型经常会泄露机密信息,在测试模型上的攻击成功率超过0.7。一种涉及使用链式思考(Chain-of-Thought)推理进行单次指令重塑的缓解策略,在无需重新训练模型的情况下,显著降低了这些攻击的成功率。 AI
影响 突出了LLM系统指令中存在的关键安全漏洞,可能影响代理AI应用程序的安全部署。
排序理由 学术论文,详细介绍了LLM安全的新评估框架和缓解策略。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →