研究人员开发了一种方法,用于识别Transformer模型中对知识编辑至关重要的通用功能子空间。通过在编辑后的权重上训练一个紧凑的二元掩码,他们发现该掩码可以逆转相当一部分编辑,这表明多样化的事实修改针对的是同一子集权重。这种机制似乎是抑制而非覆盖知识,解释了为何编辑可能不会传播到相关事实,并为检测和防御不受欢迎的编辑提供了见解。 AI
影响 识别出知识编辑的通用机制,可能提高模型在不受欢迎的事实修改方面的鲁棒性和安全性。
排序理由 这是一篇研究论文,详细介绍了一种分析和理解AI模型中知识编辑的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →