实体 Guardrail Classifiers

Guardrail Classifiers

PulseAugur coverage of Guardrail Classifiers — every cluster mentioning Guardrail Classifiers across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_28332 · May 11 · 17:41

新方法为LLM安全分类器提供形式化保证

研究人员开发了一种新的方法，可以形式化验证大型语言模型（LLM）安全护栏分类器的安全性，超越了传统的红队测试。这种方法将验证从离散输入空间转移到分类器的预激活空间，将有害区域定义为凸形状。通过分析这些区域，研究人员在测试的安全护栏分类器中发现了可验证的安全漏洞，表明仅凭经验指标可能会产生误导。该研究还强调了BERT、GPT-2和Llama-3.1-8B等模型在安全保证结构稳定性方面存在显著差异。

新方法为LLM安全分类器提供形式化保证