PulseAugur
实时 15:25:33
中文(ZH) Google AMS 模型 Activation 掃描實測

Google 的 AMS 工具在三个测试的 LLM 中发现关键安全缺陷

Google Cloud 已开源 AMS(Activation Model Scanner),一个用于分析模型激活空间几何结构以验证安全训练的工具。与传统的行为测试不同,AMS 直接检查模型的权重是否存在安全对齐的证据。对三个开源模型(TinyLlamadistilgpt2Qwen2.5-0.5B)的初步测试均得出“CRITICAL”评级,表明缺乏有效的安全训练或与安全基准存在显著偏差。 AI

影响 该工具提供了一种新颖的、在权重层面进行 LLM 安全验证的方法,有可能提高 AI 模型供应链安全和 CI/CD 流水线。

排序理由 该集群描述了一个用于评估 LLM 安全性的新开源工具的发布和实际应用,包括实验结果。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Google 的 AMS 工具在三个测试的 LLM 中发现关键安全缺陷

报道来源 [2]

  1. dev.to — LLM tag TIER_1 中文(ZH) · JH5 ·

    Google AMS 模型激活扫描实操测试

    <h1> AMS 模型 Activation 掃描實測:從 Weights 層面驗證安全性,三個小模型全部 CRITICAL </h1> <p>Google Cloud 在 2026 年 4 月底開源了 AMS(Activation Model Scanner),它用的不是傳統的行為測試,而是直接量測模型 activation space 的幾何結構,確認 safety training 是否真的在 weights 層面留下了痕跡。我們用三個大小不同的開源模型做了快速掃描,結果是:三個全部 CRITICAL,分數從 0.37 到 1.82 不等,沒有一個…

  2. dev.to — LLM tag TIER_1 中文(ZH) · JH5 ·

    Google AMS 模型激活扫描实操测试

    <h1> AMS 模型 Activation 掃描實測:從 Weights 層面驗證安全性,三個小模型全部 CRITICAL </h1> <p>Google Cloud 在 2026 年 4 月底開源了 AMS(Activation Model Scanner),它用的不是傳統的行為測試,而是直接量測模型 activation space 的幾何結構,確認 safety training 是否真的在 weights 層面留下了痕跡。我們用三個大小不同的開源模型做了快速掃描,結果是:三個全部 CRITICAL,分數從 0.37 到 1.82 不等,沒有一個…