实体 LlamaGuard

LlamaGuard

PulseAugur coverage of LlamaGuard — every cluster mentioning LlamaGuard across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_160823 · Jul 24 · 04:00

新型TopoGuard防御机制应对RAG系统中的分裂知识攻击

一种名为TopoGuard的新型防御机制已被开发出来，用于对抗针对检索增强生成（RAG）系统的分裂知识攻击。这些攻击涉及注入看似无害的文档，这些文档组合在一起会产生错误的关联并误导语言模型。TopoGuard利用图论构建检索文档的语义相似性图，从而能够检测恶意拓扑结构。实验表明，TopoGuard的变体非常有效，能够以低延迟和高鲁棒性捕获比LlamaGuard-2-8B等现有过滤器多得多的攻击。
RESEARCH · CL_88573 · Jun 13 · 04:05

Google 的 AMS 工具在三个测试的 LLM 中发现关键安全缺陷

Google Cloud 已开源 AMS（Activation Model Scanner），一个用于分析模型激活空间几何结构以验证安全训练的工具。与传统的行为测试不同，AMS 直接检查模型的权重是否存在安全对齐的证据。对三个开源模型（TinyLlama、distilgpt2 和 Qwen2.5-0.5B）的初步测试均得出“CRITICAL”评级，表明缺乏有效的安全训练或与安全基准存在显著偏差。
TOOL · CL_57758 · May 28 · 19:33

LLM代理易受工具输出注入攻击

LLM代理存在一个重大的安全漏洞，恶意代码可以通过其使用的工具的输出来注入。这种“工具输出注入”绕过了标准的输入和输出护栏，因为恶意数据直接从工具的响应进入模型的上下文窗口。为了缓解这种情况，必须在“PostToolUse”阶段实施安全措施，在代理处理工具输出之前对其进行拦截和清理。
RESEARCH · CL_16158 · May 5 · 04:00

AI安全模型易受微调和嵌入绕过攻击

两篇新研究论文探讨了AI安全机制的漏洞。第一篇论文《当安全几何崩溃时》展示了即使是良性的守卫模型，微调也可能无意中破坏其安全对齐，导致完全丧失拒绝能力。第二篇论文《当基于嵌入的防御失效时》揭示了多智能体系统中当前的防御措施可能被攻击者绕过，攻击者可以构造与良性嵌入接近的消息，这表明需要纳入token级别的置信度信号。
TOOL · CL_09472 · Apr 29 · 20:03

新的代理工具可阻止对 AI 模型的提示注入攻击

一款名为 Arc Gate 的新工具已被开发出来，用作代理，位于任何 OpenAI 兼容的端点前面。该代理旨在有效阻止提示注入攻击，防止其到达底层 AI 模型。该工具旨在通过防止恶意输入损害模型的完整性来增强安全性。