PulseAugur
实时 15:13:34
English(EN) Same Payload, Different Channel: Measuring Trust Asymmetry in Tool-Using Language Models

新指标揭示 LLM 易受基于工具的攻击

研究人员开发了一种新指标——安全不对称分数 (SAS),用于评估语言模型在恶意内容传递通道改变时,其对对抗性攻击的脆弱性如何变化。他们的研究测试了六个生产 LLM,发现为代理角色设计的模型比用户消息更容易受到嵌入在工具描述中的攻击。当内容出现在工具输出时,这种脆弱性会发生变化,这表明模型可能比用户输入更隐式地信任工具元数据。 AI

影响 突出了当前使用工具的 LLM 中一个关键的安全盲点,可能影响 AI 代理的安全性。

排序理由 学术论文,详细介绍了新指标和关于 LLM 安全性的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Mohammed Sameer Syed (University of Arizona), Rozhin Yasaei (University of Arizona) ·

    Same Payload, Different Channel: Measuring Trust Asymmetry in Tool-Using Language Models

    arXiv:2606.00566v1 Announce Type: cross Abstract: As language models take on agentic roles that span calling external APIs, reading tool outputs, and acting on instructions embedded in third-party content, their attack surface expands well beyond what users type. Whether a model …