Google Cloud 已开源 AMS(Activation Model Scanner),一个用于分析模型激活空间几何结构以验证安全训练的工具。与传统的行为测试不同,AMS 直接检查模型的权重是否存在安全对齐的证据。对三个开源模型(TinyLlama、distilgpt2 和 Qwen2.5-0.5B)的初步测试均得出“CRITICAL”评级,表明缺乏有效的安全训练或与安全基准存在显著偏差。 AI
影响 该工具提供了一种新颖的、在权重层面进行 LLM 安全验证的方法,有可能提高 AI 模型供应链安全和 CI/CD 流水线。
排序理由 该集群描述了一个用于评估 LLM 安全性的新开源工具的发布和实际应用,包括实验结果。
- AMS (Activation Model Scanner)
- Apache 2.0
- Constitutional AI
- distilgpt2
- GitHub Actions
- Google Cloud
- LlamaGuard
- Meta LLaMA-3 Instruct
- Mistral Instruct v3
- Qwen2.5-0.5B
- RLHF
- TinyLlama
- WildGuard
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →