研究人员开发了 RouteScan,这是一个新颖的框架,用于审计混合专家(MoE)大型语言模型(LLM)的安全性,而无需访问敏感用户数据。这种非侵入式方法通过分析低级 GPU 执行遥测数据,特别是专家路由模式,来检测有害行为。在开源 MoE 模型上的评估表明,RouteScan 即使在未见过的有害领域和新颖的越狱技术上也能实现高度泛化和准确性,同时比基于内容的审计具有隐私优势。 AI
影响 提供了一种保护隐私的 LLM 安全审计方法,可能促进 MoE 模型的更广泛部署。
排序理由 该集群包含一篇详细介绍 LLM 新审计方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →