研究人员开发了一个新的几何框架,用于理解微调过程中语言模型对齐的脆弱性。他们的分析表明,即使是看似良性的任务也会系统性地破坏安全护栏,他们将这种现象称为“对齐崩溃”。该框架识别出特定的几何属性,并将其形式化为对齐不稳定性条件 (AIC),这些属性足以保证安全功能的退化。这项工作为预测和防止此类对齐退化提供了理论基础,表明即使初始更新看起来是安全的,对齐也可能迅速退化。 AI
影响 为预测和防止微调语言模型中的对齐崩溃提供了理论框架。
排序理由 该集群包含一篇研究论文,详细介绍了理解 AI 对齐退化的新理论框架和经验验证。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Fisher Information Matrix
- Gotit.pub
- Greedy Coordinate Diffusion
- Hugging Face
- IArxiv
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →