研究人员开发了 CSULoRA,这是一种用于纠正大型语言模型中低秩适配(LoRA)适配器的新型事后方法。该技术解决了即使是少量微调数据也会损害已对齐模型的安全性的问题。CSULoRA 估计一个安全对齐的子空间,然后调整 LoRA 更新以保留与任务相关的信息,同时减轻不安全的方向。 AI
影响 增强微调期间的 LLM 安全性,可能使已适配模型的部署更加稳健。
排序理由 该集群包含一篇详细介绍 LLM 微调新方法的学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →