resk-logits
PulseAugur coverage of resk-logits — every cluster mentioning resk-logits across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
模型蒸馏攻击构成日益增长的 AI 安全威胁
模型蒸馏攻击,即小型模型从大型模型输出中学习,构成了一种未被充分认识到的 AI 系统安全威胁。这些攻击可以绕过安全对齐,导致模型生成有害内容,尽管其“教师”模型有安全防护措施。此外,蒸馏还可以通过使攻击者能够以更低的成本复制高性能模型来促进知识产权盗窃,并且可以通过发布看似无害但随后被恶意更新的蒸馏模型来污染 AI 供应链。resk-logits 和 reskSecure 等运行时安全工具通过在 logits 层面过滤危险 token…
-
新的开源工具以 GPU 速度阻止 LLM 越狱
一款名为 resk-logits 的新开源工具已被开发出来,通过在 token 生成过程中拦截和抑制 logit 级别的有害输出,来增强 LLM 的安全性。这个 GPU 加速的 Aho-Corasick 引擎可以在一毫秒内处理超过 10,000 个模式,从而避免了传统后生成过滤器相关的 token 浪费和延迟峰值。该工具通过对将完成被禁止短语的 token 进行“影子封禁”来运行,为对抗越狱技术提供了一种更有效的方法。
-
Anthropic的Mythos 5已获授权,Fable 5将回归;OpenAI推出GPT-5.6系列
近期发展,特别是Anthropic的模型和OpenAI的新发布,已显著重塑了AI格局。Anthropic的先进网络安全模型Mythos 5已获得美国政府授权,将向100多家机构发布,尽管此前存在监管担忧。然而,其此前被美国出口管制指令下线的“安全”公开版本Claude Fable 5,预计将很快回归,这凸显了政治对前沿模型可用性日益增长的影响力。与此同时,OpenAI推出了其GPT-5.6系列,包含三个层级:Sol用于旗舰性能,Ter…