English(EN) LoMC: Localized Multidirectional Correction for Refusal Suppression in Routed Foundation Models

新的LoMC框架增强了路由基础模型的拒绝抑制能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-10 08:02

研究人员开发了一个名为局部多向校正（LoMC）的新框架，以解决路由专家混合（MoE）和混合MoE基础模型中的拒绝抑制问题。LoMC旨在通过在特定模型组件内应用有针对性的校正来增强非拒绝响应，同时保持整体能力。该方法包括识别编辑支持、聚合校正方向，并在该支持内仅应用秩一逐层校正，从而在不扩大干预范围的情况下提高校正能力。在各种安全基准上的实验表明，LoMC在改善不同路由模型架构的期望行为方面是有效的。 AI

影响引入了一种提高复杂路由AI模型安全性和控制力的新技术。

排序理由该集群包含一篇详细介绍AI模型安全新方法的学术论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv stat.ML TIER_1 English(EN) · Yan Hong, Kedong Xiu, Wei Li, Jun Lan, Huijia Zhu, Shuheng Zhou, Zhongcai Lyu, Weiqiang Wang, Jianfu Zhang · 2026-06-15 04:00

LoMC：面向路由基础模型拒绝抑制的本地化多方向校正

arXiv:2606.13709v1 Announce Type: new Abstract: We study controlled post-training refusal suppression in routed MoE and hybrid-MoE foundation models, aiming to increase non-refusal target-response behavior while preserving general capability under a compact intervention footprint…
arXiv stat.ML TIER_1 English(EN) · Jianfu Zhang · 2026-06-10 08:02

LoMC：用于路由基础模型拒绝抑制的本地化多方向校正

We study controlled post-training refusal suppression in routed MoE and hybrid-MoE foundation models, aiming to increase non-refusal target-response behavior while preserving general capability under a compact intervention footprint. Existing broad direction-based edits can pertu…

报道来源 [2]

LoMC：面向路由基础模型拒绝抑制的本地化多方向校正

LoMC：用于路由基础模型拒绝抑制的本地化多方向校正

相关实体

相关话题