PulseAugur
实时 20:43:38
Polski(PL) Badacze z ByteDance i HKUST udowadniają, że tradycyjne uczenie modeli AI na zadaniach OCR utrudnia pracę z dokumentami. Ich projekt MMProLong pokazuje, że klucz

Nous Research's CNA method steers LLM refusal behavior by targeting 0.1% of neurons

Researchers at Nous Research have developed a new method called Contrastive Neuron Attribution (CNA) to identify and manipulate specific neurons within large language models that control refusal behavior. By targeting just 0.1% of these neurons, CNA can reduce harmful request refusal rates by over 50% in models like Llama and Qwen, while maintaining high output quality. This technique operates without requiring additional training or modification of model weights, and importantly, it reveals that the underlying neural structures for distinguishing harmful from benign prompts exist even in base models before alignment fine-tuning. AI

影响 Enables precise control over LLM safety mechanisms, potentially leading to more robust alignment techniques and a deeper understanding of model behavior.

排序理由 The cluster describes a new research paper detailing a novel method for analyzing and manipulating AI model behavior.

在 Mastodon — sigmoid.social 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →

Nous Research's CNA method steers LLM refusal behavior by targeting 0.1% of neurons

报道来源 [4]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Nous Research 发布对比神经归因 (CNA):无需 SAE 训练或权重修改即可进行稀疏 MLP 电路引导

    <p>Nous Research releases Contrastive Neuron Attribution (CNA), a method that identifies and ablates sparse MLP neuron circuits to steer LLM behavior — no sparse autoencoder training, no weight modification, and no degradation of general capability benchmarks.</p> <p>The post <a …

  2. Mastodon — sigmoid.social TIER_1 Polski(PL) · [email protected] ·

    Nous Research 的研究人员开发了 CNA 方法,该方法通过对 Llama 和 Qwen 模型进行一项操作,几乎可以完全移除其安全锁

    Badacze z Nous Research opracowali metodę CNA, która pozwala niemal całkowicie zdjąć blokady bezpieczeństwa w modelach Llama i Qwen poprzez operację na zaledwie 0,1% ich neuronów. # si # ai # sztucznainteligencja # wiadomości # informacje # technologia https:// aisight.pl/technol…

  3. Mastodon — sigmoid.social TIER_1 Polski(PL) · [email protected] ·

    字节跳动与香港科技大学研究人员证明,在OCR任务上训练传统AI模型会阻碍文档工作。他们的MMProLong项目表明,关键

    Badacze z ByteDance i HKUST udowadniają, że tradycyjne uczenie modeli AI na zadaniach OCR utrudnia pracę z dokumentami. Ich projekt MMProLong pokazuje, że kluczem do sukcesu nie jest rozmiar modelu, lecz zastąpienie mechanicznej transkrypcji grami pytań i odpowiedzi. # si # ai # …

  4. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    Nous Research发布对比神经归因(CNA)方法,识别控制AI模型拒绝行为的特定MLP神经元。通过ab

    Nous Research has released Contrastive Neuron Attribution (CNA), a method that identifies the specific MLP neurons controlling AI model refusal behaviour. By ablating just 0.1% of MLP activations, refusal rates drop by over 50% across Llama and Qwen models from 1B to 72B paramete…