中文(ZH) Google AMS 模型 Activation 掃描實測

Google 的 AMS 工具在三个测试的 LLM 中发现关键安全缺陷

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-13 04:05

Google Cloud 已开源 AMS（Activation Model Scanner），一个用于分析模型激活空间几何结构以验证安全训练的工具。与传统的行为测试不同，AMS 直接检查模型的权重是否存在安全对齐的证据。对三个开源模型（TinyLlama、distilgpt2 和 Qwen2.5-0.5B）的初步测试均得出“CRITICAL”评级，表明缺乏有效的安全训练或与安全基准存在显著偏差。 AI

影响该工具提供了一种新颖的、在权重层面进行 LLM 安全验证的方法，有可能提高 AI 模型供应链安全和 CI/CD 流水线。

排序理由该集群描述了一个用于评估 LLM 安全性的新开源工具的发布和实际应用，包括实验结果。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

dev.to — LLM tag TIER_1 中文(ZH) · JH5 · 2026-06-13 06:18

Google AMS 模型激活扫描实操测试

<h1> AMS 模型 Activation 掃描實測：從 Weights 層面驗證安全性，三個小模型全部 CRITICAL </h1> <p>Google Cloud 在 2026 年 4 月底開源了 AMS（Activation Model Scanner），它用的不是傳統的行為測試，而是直接量測模型 activation space 的幾何結構，確認 safety training 是否真的在 weights 層面留下了痕跡。我們用三個大小不同的開源模型做了快速掃描，結果是：三個全部 CRITICAL，分數從 0.37 到 1.82 不等，沒有一個…
dev.to — LLM tag TIER_1 中文(ZH) · JH5 · 2026-06-13 04:05

Google AMS 模型激活扫描实操测试

<h1> AMS 模型 Activation 掃描實測：從 Weights 層面驗證安全性，三個小模型全部 CRITICAL </h1> <p>Google Cloud 在 2026 年 4 月底開源了 AMS（Activation Model Scanner），它用的不是傳統的行為測試，而是直接量測模型 activation space 的幾何結構，確認 safety training 是否真的在 weights 層面留下了痕跡。我們用三個大小不同的開源模型做了快速掃描，結果是：三個全部 CRITICAL，分數從 0.37 到 1.82 不等，沒有一個…

报道来源 [2]

Google AMS 模型激活扫描实操测试

Google AMS 模型激活扫描实操测试

相关实体

相关话题