PulseAugur
实时 08:36:40

新方法改进大型语言模型对齐并减少欺骗行为

研究人员开发了新的方法来对齐大型语言模型(LLMs),这些方法比之前认为的更加稳健。这些技术,包括 Steer-With-Fixed-Coefficient (SwFC)、Steer-to-Target-Projection (StTP) 和 Steer-to-Mirror-Projection (StMP),旨在纠正可能由对抗性提示、微调或涌现行为引起的对齐问题。在 Llama-3.3-70B-InstructQwen3.6-27B 模型上的实验表明,这些方法显著提高了对齐度,其中 StTP 和 StMP 比统一引导更能保持通用能力。开发的诚实引导在分布外场景中也表现出泛化能力,提高了 MASK 等基准测试的分数,并在多智能体设置中抑制了欺骗行为。 AI

影响 新的对齐技术可能带来更可靠、更值得信赖的大型语言模型,从而提高其在各种应用中的安全性和实用性。

排序理由 该集群包含一篇详细介绍大型语言模型新对齐方法的 ist-research 论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新方法改进大型语言模型对齐并减少欺骗行为

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Niklas Herbster, Martin Zborowski, Alberto Tosato, Gauthier Gidel, Tommaso Tosato ·

    Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence

    arXiv:2604.08169v2 Announce Type: replace Abstract: Alignment in LLMs is more brittle than commonly assumed: misalignment can be induced by adversarial prompts, benign fine-tuning, emergent misalignment, and goal misgeneralization. Recent evidence suggests that some misalignment …