研究人员推出 SafeGene,这是一种用于在开放权重大型语言模型中保持安全对齐的新颖方法。SafeGene 利用可复用的适配器模块,这些模块可以跨不同任务和模型更新应用,从而防止下游微调导致的安全降级。该方法将安全视为一种可迁移的表示,通过数据感知层选择和重新校准进行优化,并在各种安全评估中有效减少有害输出,同时保持模型效用。 AI
影响 提供了一种可复用的机制来缓解微调后的大型语言模型的安全降级,有望提高已部署模型的可靠性。
排序理由 该集群包含一篇详细介绍大型语言模型安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →