PulseAugur
实时 14:49:17
Polski(PL) Badacze z ByteDance i HKUST udowadniają, że tradycyjne uczenie modeli AI na zadaniach OCR utrudnia pracę z dokumentami. Ich projekt MMProLong pokazuje, że klucz

Nous Research 的 CNA 方法通过靶向 0.1% 的神经元来引导 LLM 的拒绝行为

Nous Research 的研究人员开发了一种名为对比神经元归因 (CNA) 的新方法,用于识别和操纵大型语言模型中控制拒绝行为的特定神经元。通过仅靶向这些神经元的 0.1%,CNA 可以将 LlamaQwen 等模型的有害请求拒绝率降低 50% 以上,同时保持高质量的输出。该技术无需额外的训练或修改模型权重即可运行,重要的是,它揭示了区分有害提示和良性提示的底层神经结构即使在对齐微调之前的基础模型中也存在。 AI

影响 能够精确控制 LLM 的安全机制,可能导致更强大的对齐技术和对模型行为的更深入理解。

排序理由 该集群描述了一篇详细介绍分析和操纵 AI 模型行为的新颖方法的新研究论文。

在 Mastodon — sigmoid.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →

Nous Research 的 CNA 方法通过靶向 0.1% 的神经元来引导 LLM 的拒绝行为

报道来源 [4]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Nous Research 发布对比神经归因 (CNA):无需 SAE 训练或权重修改即可进行稀疏 MLP 电路引导

    <p>Nous Research releases Contrastive Neuron Attribution (CNA), a method that identifies and ablates sparse MLP neuron circuits to steer LLM behavior — no sparse autoencoder training, no weight modification, and no degradation of general capability benchmarks.</p> <p>The post <a …

  2. Mastodon — sigmoid.social TIER_1 Polski(PL) · [email protected] ·

    Nous Research 的研究人员开发了 CNA 方法,该方法通过对 Llama 和 Qwen 模型进行一项操作,几乎可以完全移除其安全锁

    Badacze z Nous Research opracowali metodę CNA, która pozwala niemal całkowicie zdjąć blokady bezpieczeństwa w modelach Llama i Qwen poprzez operację na zaledwie 0,1% ich neuronów. # si # ai # sztucznainteligencja # wiadomości # informacje # technologia https:// aisight.pl/technol…

  3. Mastodon — sigmoid.social TIER_1 Polski(PL) · [email protected] ·

    字节跳动与香港科技大学研究人员证明,在OCR任务上训练传统AI模型会阻碍文档工作。他们的MMProLong项目表明,关键

    Badacze z ByteDance i HKUST udowadniają, że tradycyjne uczenie modeli AI na zadaniach OCR utrudnia pracę z dokumentami. Ich projekt MMProLong pokazuje, że kluczem do sukcesu nie jest rozmiar modelu, lecz zastąpienie mechanicznej transkrypcji grami pytań i odpowiedzi. # si # ai # …

  4. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    Nous Research发布对比神经归因(CNA)方法,识别控制AI模型拒绝行为的特定MLP神经元。通过ab

    Nous Research has released Contrastive Neuron Attribution (CNA), a method that identifies the specific MLP neurons controlling AI model refusal behaviour. By ablating just 0.1% of MLP activations, refusal rates drop by over 50% across Llama and Qwen models from 1B to 72B paramete…