PulseAugur
实时 13:47:50
English(EN) When Role-playing, Do Models Believe What They Say?

AI模型的角色采纳:输出变化 vs. 内部信念转变

研究人员调查了语言模型在角色扮演时是真正内化了角色,还是仅仅改变了输出。他们通过提示、上下文学习、监督微调和开放式角色训练来诱导角色,并通过真实性探测和行为测试来衡量内化程度。研究发现,提示、上下文学习和监督微调主要改变了模型的输出,代表性变化很小。然而,涌现式错位(Emergent Misalignment)对模型的真实性表征产生了显著改变,而开放式角色训练则显示出中间效果,尤其是在较大的模型中。 AI

影响 理解AI模型如何内化角色对于开发更可靠、更自主的AI系统至关重要。

排序理由 该集群基于一篇详细介绍AI模型行为实验的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

AI模型的角色采纳:输出变化 vs. 内部信念转变

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 English(EN) · Sturb ·

    角色扮演时,模型会相信自己说的话吗?

    <h2><b><span>TL;DR</span></b></h2><ul><li value="1"><span>When a model role-plays a persona, does it only change what it </span><i><span>says</span></i><span>, or also what it internally represents as </span><i><span>true</span></i><span>?</span></li><li value="2"><span>To study …