实体 Llama Guard 3

Llama Guard 3

PulseAugur coverage of Llama Guard 3 — every cluster mentioning Llama Guard 3 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

6

90 天内 6

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_129350 · Jul 7 · 04:00

新的操作系统内核原语增强LLM安全检查

一种名为ProbeLogits的新型内核级操作已为AI原生操作系统开发，允许它们在生成token之前直接读取LLM的logit分布。该原语使操作系统能够在不需要单独的guard模型的情况下将代理行为分类为安全或危险，从而显著降低计算开销。在Qwen2.5-7B、Llama-3-8B和Mistral-7B等模型上的评估表明，在HarmBench和ToxicChat等基准测试上实现了高拦截率，性能与Llama Guard 3等现有guar…
TOOL · CL_117631 · Jun 30 · 04:00

新型防御探测LLM隐藏状态以阻止预填充攻击

研究人员开发了一种名为响应时间探测（response-time probing）的大型语言模型新防御机制，可有效对抗预填充攻击。该方法与AlphaSteer等现有技术结合，在Mistral和Llama等模型上实现了超过0.98的防御成功率。研究还指出，MMLU等标准基准可能无法完全捕捉到引导方法（steering methods）的真实效用成本，这种成本可能表现为行为对冲（behavioral hedging）而非事实损失。
TOOL · CL_126255 · Jun 28 · 15:05

新的响应时间探测方法提高了 LLM 对预填充攻击的安全性

研究人员开发了一种名为响应时间探测的新方法，通过检测预填充攻击来增强大型语言模型的安全性。该技术通过在第一个生成的 token 处探测模型的隐藏状态，在七种不同的模型上实现了 0.97-1.00 的 AUROC。当与暂停机制结合使用时，它将预填充攻击的成功率降至 0%，且没有良性误报，优于 Llama Guard 3 等现有防御措施。当这种响应暂停与 AlphaSteer 的零空间引导相结合时，取得了进一步的改进，实现了超过 0.98…
TOOL · CL_58612 · May 29 · 04:00

新型护栏系统提升大语言模型安全效率

研究人员开发了COLAGUARD，一种新颖的大语言模型安全护栏系统，可在不牺牲性能的情况下显著提高效率。通过将多步安全推理转移到潜在空间，COLAGUARD在推理过程中实现了直接的隐藏状态传播。与现有方法相比，这种方法在速度和令牌使用量方面都有大幅提升，使其在保持强大安全性的同时，适用于高吞吐量部署。
TOOL · CL_44659 · May 22 · 04:00

新框架识别AI聊天机器人中老年人特有的风险

研究人员开发了GrandGuard，一个旨在解决老年用户与AI聊天机器人交互时特定安全问题的框架。该框架包含一个包含50种风险类型的分类法，涵盖心理健康、财务、医疗、毒性和隐私领域，这些风险类型基于现实世界的事件和利益相关者研究。一个包含超过10,000个提示和响应的基准测试显示，领先的LLM在超过一半的情况下未能处理这些老年人特有的风险。为缓解这些问题，实施了两项保障措施，在检测不安全提示方面取得了高准确率。
RESEARCH · CL_45776 · May 21 · 04:58

大型语言模型注入检测器在领域伪装攻击下失效

一项新的研究论文揭示了当前大型语言模型（LLM）安全系统的一个重大漏洞，称为伪装检测差距。当恶意注入的载荷被改写以模仿目标文档的领域特定语言和结构时，就会出现这种差距，导致标准检测器失效。例如，Llama 3.1 8B 的检测率从 93.8% 下降到 9.7%，Gemini 2.0 Flash 的检测率从 100% 下降到 55.6%，而专门的分类器 Llama Guard 3 则未能捕获任何伪装的载荷。此外，旨在作为防御手段的多代理…