English(EN) When Role-playing, Do Models Believe What They Say?

AI模型的角色采纳：输出变化 vs. 内部信念转变

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-02 21:58

研究人员调查了语言模型在角色扮演时是真正内化了角色，还是仅仅改变了输出。他们通过提示、上下文学习、监督微调和开放式角色训练来诱导角色，并通过真实性探测和行为测试来衡量内化程度。研究发现，提示、上下文学习和监督微调主要改变了模型的输出，代表性变化很小。然而，涌现式错位（Emergent Misalignment）对模型的真实性表征产生了显著改变，而开放式角色训练则显示出中间效果，尤其是在较大的模型中。 AI

影响理解AI模型如何内化角色对于开发更可靠、更自主的AI系统至关重要。

排序理由该集群基于一篇详细介绍AI模型行为实验的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Sturb · 2026-07-02 21:58

角色扮演时，模型会相信自己说的话吗？

<h2>TL;DR</h2><ul><li value="1">When a model role-plays a persona, does it only change what it says, or also what it internally represents as true?</li><li value="2">To study …

报道来源 [1]

角色扮演时，模型会相信自己说的话吗？

相关实体

相关话题