研究人员开发了一种新指标——安全不对称分数 (SAS),用于评估语言模型在恶意内容传递通道改变时,其对对抗性攻击的脆弱性如何变化。他们的研究测试了六个生产 LLM,发现为代理角色设计的模型比用户消息更容易受到嵌入在工具描述中的攻击。当内容出现在工具输出时,这种脆弱性会发生变化,这表明模型可能比用户输入更隐式地信任工具元数据。 AI
影响 突出了当前使用工具的 LLM 中一个关键的安全盲点,可能影响 AI 代理的安全性。
排序理由 学术论文,详细介绍了新指标和关于 LLM 安全性的发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →