English(EN) Tracing Persona Vectors Through LLM Pretraining

研究发现：LLM中的人格向量在预训练早期形成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-13 10:44

研究人员发现，像谄媚这样的特定行为特征在大型语言模型中由“人格向量”表示。这些向量在预训练过程的早期就形成了，对于OLMo-3-7B模型来说，仅占训练的最初0.22%。虽然核心表征形成迅速，但这些人格向量在整个预训练过程中会持续细化，并且不同的提取方法会揭示底层行为的不同方面。研究结果表明，这些表征是早期预训练的稳定特征，并已被证明可以迁移到Apertus-8B等其他模型。 AI

影响揭示了LLM中的关键行为特征在训练早期就已确立，可能为预训练期间的新的安全干预措施提供了可能。

排序理由该集群包含一篇详细介绍LLM可解释性和安全性的研究发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Robert West · 2026-05-13 10:44

在LLM预训练中追踪Persona向量

How large language models internally represent high-level behaviors is a core interpretability question with direct relevance to AI safety: it determines what we can detect, audit, or intervene on. Recent work has shown that traits such as evil or sycophancy correspond to linear …

报道来源 [1]

在LLM预训练中追踪Persona向量

相关实体

相关话题