研究人员开发了一个名为局部多向校正(LoMC)的新框架,以解决路由专家混合(MoE)和混合MoE基础模型中的拒绝抑制问题。LoMC旨在通过在特定模型组件内应用有针对性的校正来增强非拒绝响应,同时保持整体能力。该方法包括识别编辑支持、聚合校正方向,并在该支持内仅应用秩一逐层校正,从而在不扩大干预范围的情况下提高校正能力。在各种安全基准上的实验表明,LoMC在改善不同路由模型架构的期望行为方面是有效的。 AI
影响 引入了一种提高复杂路由AI模型安全性和控制力的新技术。
排序理由 该集群包含一篇详细介绍AI模型安全新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →