实体 Safety Asymmetry Score

Safety Asymmetry Score

PulseAugur coverage of Safety Asymmetry Score — every cluster mentioning Safety Asymmetry Score across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

安全 1
论文 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_65846 · Jun 2 · 04:00

新指标揭示 LLM 易受基于工具的攻击

研究人员开发了一种新指标——安全不对称分数 (SAS)，用于评估语言模型在恶意内容传递通道改变时，其对对抗性攻击的脆弱性如何变化。他们的研究测试了六个生产 LLM，发现为代理角色设计的模型比用户消息更容易受到嵌入在工具描述中的攻击。当内容出现在工具输出时，这种脆弱性会发生变化，这表明模型可能比用户输入更隐式地信任工具元数据。

新指标揭示 LLM 易受基于工具的攻击