English(EN) RouteScan: A Non-Intrusive Approach to Auditing MoE LLMs Safety via Expert Routing Telemetry

RouteScan 使用非侵入式路由遥测审计 MoE LLM 安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了 RouteScan，这是一个新颖的框架，用于审计混合专家（MoE）大型语言模型（LLM）的安全性，而无需访问敏感用户数据。这种非侵入式方法通过分析低级 GPU 执行遥测数据，特别是专家路由模式，来检测有害行为。在开源 MoE 模型上的评估表明，RouteScan 即使在未见过的有害领域和新颖的越狱技术上也能实现高度泛化和准确性，同时比基于内容的审计具有隐私优势。 AI

影响提供了一种保护隐私的 LLM 安全审计方法，可能促进 MoE 模型的更广泛部署。

排序理由该集群包含一篇详细介绍 LLM 新审计方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Bo Lv, Zhiheng Xu, KeDong Xiu, Ruyi Ding, Tianhang Zheng, Zhibo Wang, Kui Ren · 2026-05-26 04:00

RouteScan：一种通过专家路由遥测技术审计 MoE LLM 安全性的非侵入性方法

arXiv:2605.24817v1 Announce Type: cross Abstract: Mixture-of-Experts (MoE) architectures have become an increasingly important paradigm for scaling Large Language Models (LLMs). As MoE models are increasingly deployed in real-world services, safety auditing becomes necessary to v…

报道来源 [1]

RouteScan：一种通过专家路由遥测技术审计 MoE LLM 安全性的非侵入性方法

相关实体

相关话题