研究人员分析了 OLMo 3 7B 模型在训练过程中有害性表征的发展。他们识别出不同有害性子类别的明显但相关的线性激活方向,并观察到这些方向会随着时间演变和稳定。研究发现,分布内评估可能具有误导性,强调了进行分布外测试的必要性,并证明了后期训练方向可以有效地引导模型的行为。 AI
影响 揭示了有害概念在 LLM 训练过程中如何被表征和演变,可能为未来的安全研究提供信息。
排序理由 技术报告,详细介绍了模型训练动态和有害性表征的方法和发现。[lever_c_demoted from research: ic=1 ai=1.0]
- Alpaca
- BeaverTails
- Bryan Maruyama
- Daniele Pace
- Hannes Whittingham
- LessWrong
- Lorenzo Pacchiardi
- MARS 4.0
- Mikhail Mironov
- OLMo 3 7B
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →