研究人员开发了新的方法来对齐大型语言模型(LLMs),这些方法比之前认为的更加稳健。这些技术,包括 Steer-With-Fixed-Coefficient (SwFC)、Steer-to-Target-Projection (StTP) 和 Steer-to-Mirror-Projection (StMP),旨在纠正可能由对抗性提示、微调或涌现行为引起的对齐问题。在 Llama-3.3-70B-Instruct 和 Qwen3.6-27B 模型上的实验表明,这些方法显著提高了对齐度,其中 StTP 和 StMP 比统一引导更能保持通用能力。开发的诚实引导在分布外场景中也表现出泛化能力,提高了 MASK 等基准测试的分数,并在多智能体设置中抑制了欺骗行为。 AI
影响 新的对齐技术可能带来更可靠、更值得信赖的大型语言模型,从而提高其在各种应用中的安全性和实用性。
排序理由 该集群包含一篇详细介绍大型语言模型新对齐方法的 ist-research 论文。
- Activation Steering
- AuditBench
- Llama-3.3-70B-Instruct
- LLMs
- MASK benchmark
- Niklas Herbster
- Qwen3.6-27B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →