English(EN) SafeGene: Reusable Adapters for Transferable Safety Alignment

SafeGene 适配器为大型语言模型提供可复用的安全对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员推出 SafeGene，这是一种用于在开放权重大型语言模型中保持安全对齐的新颖方法。SafeGene 利用可复用的适配器模块，这些模块可以跨不同任务和模型更新应用，从而防止下游微调导致的安全降级。该方法将安全视为一种可迁移的表示，通过数据感知层选择和重新校准进行优化，并在各种安全评估中有效减少有害输出，同时保持模型效用。 AI

影响提供了一种可复用的机制来缓解微调后的大型语言模型的安全降级，有望提高已部署模型的可靠性。

排序理由该集群包含一篇详细介绍大型语言模型安全新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yanghan Wang, Zhiqiang Kou, Fu Feng, Jing Wang, Xin Geng · 2026-06-08 04:00

SafeGene：可复用适配器实现可迁移安全对齐

arXiv:2606.06519v1 Announce Type: new Abstract: Open-weight LLMs are increasingly fine-tuned into customized assistants, but downstream fine-tuning can weaken safety alignment and make models more vulnerable to malicious prompts, even when the training data is not intentionally h…

报道来源 [1]

SafeGene：可复用适配器实现可迁移安全对齐

相关实体

相关话题