实体 WildGuard

WildGuard

PulseAugur coverage of WildGuard — every cluster mentioning WildGuard across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_88573 · Jun 13 · 04:05

Google 的 AMS 工具在三个测试的 LLM 中发现关键安全缺陷

Google Cloud 已开源 AMS（Activation Model Scanner），一个用于分析模型激活空间几何结构以验证安全训练的工具。与传统的行为测试不同，AMS 直接检查模型的权重是否存在安全对齐的证据。对三个开源模型（TinyLlama、distilgpt2 和 Qwen2.5-0.5B）的初步测试均得出“CRITICAL”评级，表明缺乏有效的安全训练或与安全基准存在显著偏差。
TOOL · CL_58738 · May 29 · 04:00

新的Opir模型为LLM提供高效的多任务安全分类

研究人员推出Opir，这是一系列新的基于编码器的护栏模型，专为大型语言模型应用中的高效多任务安全分类而设计。Opir模型基于GLiClass架构构建，能够检测不安全提示、有毒语言、越狱尝试和有害内容，其部署占用的空间比大型护栏模型小得多。这些模型在全面的分类法上进行了训练，并与评估工具一起开源，以支持各种安全分类任务。
TOOL · CL_38995 · May 19 · 12:01

GLiNER Guard 在单次推理中统一LLM安全与PII检测

一个名为GLiNER Guard (GLiGuard) 的新系统已被开发出来，用于简化大型语言模型的安全审核和PII检测。这个统一的编码器将多个分类器和NER模型折叠到一次前向传播中，与现有的自回归或碎片化编码器方法相比，显著降低了处理时间和成本。GLiGuard的模式驱动接口允许在不重新训练的情况下动态更改策略，使其成为生产LLM应用程序的更高效解决方案。
TOOL · CL_30372 · May 13 · 20:41

Fastino Labs 开源 GLiGuard 安全模型

Fastino Labs 发布了 GLiGuard，这是一个开源的安全审核模型，旨在比现有解决方案更快、更高效。与逐个 token 生成响应的传统 decoder-only 模型不同，GLiGuard 使用基于 encoder 的架构，在单次传递中对提示和响应进行分类。这种方法使其在运行速度快 16 倍的同时，能够匹配或超越更大模型的准确性，从而解决了 LLM 安全审核日益增长的成本和延迟问题。
RESEARCH · CL_16158 · May 5 · 04:00

AI安全模型易受微调和嵌入绕过攻击

两篇新研究论文探讨了AI安全机制的漏洞。第一篇论文《当安全几何崩溃时》展示了即使是良性的守卫模型，微调也可能无意中破坏其安全对齐，导致完全丧失拒绝能力。第二篇论文《当基于嵌入的防御失效时》揭示了多智能体系统中当前的防御措施可能被攻击者绕过，攻击者可以构造与良性嵌入接近的消息，这表明需要纳入token级别的置信度信号。

Google 的 AMS 工具在三个测试的 LLM 中发现关键安全缺陷

新的Opir模型为LLM提供高效的多任务安全分类

GLiNER Guard 在单次推理中统一LLM安全与PII检测

Fastino Labs 开源 GLiGuard 安全模型

AI安全模型易受微调和嵌入绕过攻击