研究人员开发了 ALIGNBEAM,一种无需更改权重即可增强大型语言模型安全性的新方法。该技术能够将安全对齐从安全锚定模型迁移到目标模型,即使它们使用不同的词汇表。ALIGNBEAM 在推理时通过转换 logits 并使用 judge LLM 选择更安全的续写来运行,在保持任务准确性和可控开销的同时,有效提高了对抗性基准上的拒绝率。 AI
影响 能够在无需重新训练的情况下跨不同模型系列迁移 LLM 安全对齐,从而可能提高专业模型的安全性。
排序理由 该集群包含一篇详细介绍 LLM 安全新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →