PulseAugur
实时 16:56:01
English(EN) LoMC: Localized Multidirectional Correction for Refusal Suppression in Routed Foundation Models

新的LoMC框架增强了路由基础模型的拒绝抑制能力

研究人员开发了一个名为局部多向校正(LoMC)的新框架,以解决路由专家混合(MoE)和混合MoE基础模型中的拒绝抑制问题。LoMC旨在通过在特定模型组件内应用有针对性的校正来增强非拒绝响应,同时保持整体能力。该方法包括识别编辑支持、聚合校正方向,并在该支持内仅应用秩一逐层校正,从而在不扩大干预范围的情况下提高校正能力。在各种安全基准上的实验表明,LoMC在改善不同路由模型架构的期望行为方面是有效的。 AI

影响 引入了一种提高复杂路由AI模型安全性和控制力的新技术。

排序理由 该集群包含一篇详细介绍AI模型安全新方法的学术论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的LoMC框架增强了路由基础模型的拒绝抑制能力

报道来源 [2]

  1. arXiv stat.ML TIER_1 English(EN) · Yan Hong, Kedong Xiu, Wei Li, Jun Lan, Huijia Zhu, Shuheng Zhou, Zhongcai Lyu, Weiqiang Wang, Jianfu Zhang ·

    LoMC:面向路由基础模型拒绝抑制的本地化多方向校正

    arXiv:2606.13709v1 Announce Type: new Abstract: We study controlled post-training refusal suppression in routed MoE and hybrid-MoE foundation models, aiming to increase non-refusal target-response behavior while preserving general capability under a compact intervention footprint…

  2. arXiv stat.ML TIER_1 English(EN) · Jianfu Zhang ·

    LoMC:用于路由基础模型拒绝抑制的本地化多方向校正

    We study controlled post-training refusal suppression in routed MoE and hybrid-MoE foundation models, aiming to increase non-refusal target-response behavior while preserving general capability under a compact intervention footprint. Existing broad direction-based edits can pertu…