PulseAugur
实时 11:43:27
English(EN) Tracing Persona Vectors Through LLM Pretraining

研究发现:LLM中的人格向量在预训练早期形成

研究人员发现,像谄媚这样的特定行为特征在大型语言模型中由“人格向量”表示。这些向量在预训练过程的早期就形成了,对于OLMo-3-7B模型来说,仅占训练的最初0.22%。虽然核心表征形成迅速,但这些人格向量在整个预训练过程中会持续细化,并且不同的提取方法会揭示底层行为的不同方面。研究结果表明,这些表征是早期预训练的稳定特征,并已被证明可以迁移到Apertus-8B等其他模型。 AI

影响 揭示了LLM中的关键行为特征在训练早期就已确立,可能为预训练期间的新的安全干预措施提供了可能。

排序理由 该集群包含一篇详细介绍LLM可解释性和安全性的研究发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现:LLM中的人格向量在预训练早期形成

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Robert West ·

    在LLM预训练中追踪Persona向量

    How large language models internally represent high-level behaviors is a core interpretability question with direct relevance to AI safety: it determines what we can detect, audit, or intervene on. Recent work has shown that traits such as evil or sycophancy correspond to linear …