研究人员推出 MESA,一个旨在增强专家混合(MoE)大语言模型安全对齐的新框架。MESA 通过将安全责任分散到多个专家,而不是集中在少数几个专家身上,来解决“安全稀疏性”问题。该框架利用最优传输理论重新分配专家能力并优化路由,确保在保持模型有用性的同时,能够有效防御有害输入。 AI
影响 MESA 通过解决 MoE 架构中的特定漏洞,提供了一种新颖的 LLM 安全方法,有望带来更强大、更可靠的 AI 系统。
排序理由 这是一篇详细介绍改进 LLM 安全的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →