研究人员开发了一种名为“通过能量校准的多适配器表示干预”(MARI)的新方法,可以在不改变大型语言模型核心权重的情况下,更好地将其与期望的行为对齐。MARI采用多适配器系统,其中专业专家根据个体输入调整干预方向和强度。一个基于能量的门控模块通过根据内部动态识别适合干预的输入来进一步优化这一点。实验表明,MARI在TruthfulQA和安全任务等基准测试中实现了最先进的对齐性能,同时在MMLU和ARC上保留甚至增强了通用能力。 AI
影响 这项研究提供了一种新颖的方法来改进LLM的对齐和安全性,而不会损害其通用能力,有望带来更可靠、更可控的AI系统。
排序理由 该集群包含一篇详细介绍LLM对齐新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →