Resk-Security 发布了 resk-logits,一个开源的 Python 库,旨在通过在 Logits 层进行过滤来防止大型语言模型 (LLM) 越狱。这种方法在有害 token 生成之前进行拦截,不同于传统的在生成后扫描输出的方法。该库利用 GPU 加速的 Aho-Corasick 算法,在一毫秒内扫描超过 10,000 个不允许的模式,为 LLM 安全提供了更强大、更快速的方法。 AI
影响 通过在 Logits 层进行过滤,为 LLM 安全提供了一种更强大、更快速的方法,有可能提高对抗越狱的安全性。
排序理由 发布了一个新的 LLM 安全开源库。
- Aho–Corasick algorithm
- CUDA
- Hugging Face
- LLM
- mistralai/Mistral-7B-v0.1
- PyTorch
- resk-logits
- Resk-Security
- RTX 4090
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →