PulseAugur
实时 08:09:42
实体 guard rail

guard rail

PulseAugur coverage of guard rail — every cluster mentioning guard rail across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. COMMENTARY · CL_97925 ·

    LLM 提示注入防御可被绕过,即使采用高级技术

    提示注入攻击利用了 LLM 的基本特性,即指令和数据在上下文窗口内无法区分。虽然存在各种防御层,从简单的关键字过滤到使用第二个 LLM 作为护栏,但每一种都可以被绕过。高级技术,如 ASCII 走私,它使用不可见的 Unicode 字符嵌入隐藏文本,进一步证明了保护 LLM 免受恶意输入侵害的难度。

  2. TOOL · CL_93121 ·

    大语言模型代理通过安全护栏增强地理空间数据检索

    研究人员开发了一个新框架,该框架使用大语言模型(LLMs)通过自然语言查询检索遥感数据。该系统采用三个代理:一个用于安全的护栏代理,一个用于理解用户意图的通用问答代理,以及一个用于生成API调用的推荐分析师代理。在对抗性场景中的初步测试表明,虽然提示级别的安全措施增强了鲁棒性,但API操作中持续存在的故障凸显了对更高级别的系统防御的需求。