English(EN) MESA: Improving MoE Safety Alignment via Decentralized Expertise

MESA 框架将 LLM 安全对齐去中心化至 MoE 模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员推出 MESA，一个旨在增强专家混合（MoE）大语言模型安全对齐的新框架。MESA 通过将安全责任分散到多个专家，而不是集中在少数几个专家身上，来解决“安全稀疏性”问题。该框架利用最优传输理论重新分配专家能力并优化路由，确保在保持模型有用性的同时，能够有效防御有害输入。 AI

影响 MESA 通过解决 MoE 架构中的特定漏洞，提供了一种新颖的 LLM 安全方法，有望带来更强大、更可靠的 AI 系统。

排序理由这是一篇详细介绍改进 LLM 安全的新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yitong Sun, Yao Huang, Teng Li, Ranjie Duan, Yichi Zhang, Xingjun Ma, Hui Xue, Xingxing Wei · 2026-06-02 04:00

MESA：通过去中心化专业知识改进 MoE 安全对齐

arXiv:2606.00651v1 Announce Type: cross Abstract: Mixture-of-Experts (MoE) architectures scale Large Language Models (LLMs) efficiently, enabling greater capacity with reduced computational cost by dynamically routing inputs to relevant experts, yet introduce a critical vulnerabi…