reskSecure 工具通过在 logits 层实现防火墙,提供了一种新颖的大模型安全方法,可防止生成不期望的 token。与扫描生成后输出的传统过滤器不同,reskSecure 在 token 选择之前拦截概率分布。此方法允许完全阻止禁止的 token 概率或对其进行惩罚,确保模型无法生成不允许的序列。 AI
影响 该工具可以通过从源头阻止生成不期望的内容来提高大模型安全性。
排序理由 该项目描述了一个用于大模型安全的新软件工具。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →