English(EN) Harmfulness Directions in OLMo

OLMo 3 7B 训练揭示结构化有害性方向

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 22:39

研究人员分析了 OLMo 3 7B 模型在训练过程中有害性表征的发展。他们识别出不同有害性子类别的明显但相关的线性激活方向，并观察到这些方向会随着时间演变和稳定。研究发现，分布内评估可能具有误导性，强调了进行分布外测试的必要性，并证明了后期训练方向可以有效地引导模型的行为。 AI

影响揭示了有害概念在 LLM 训练过程中如何被表征和演变，可能为未来的安全研究提供信息。

排序理由技术报告，详细介绍了模型训练动态和有害性表征的方法和发现。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Daniele Pace · 2026-06-09 22:39

OLMo 中的有害性方向

<img alt="pca_centroids_animation.gif" src="https://res.cloudinary.com/lesswrong-2-0/image/upload/v1778859923/lexical_client_uploads/kbq9rgmrhedzrnngtmkn.gif" /><h1><span>Introduction</span></h1><p><span>This work was conducted as part of the MARS 4.0 program, supervised by Loren…