实体 Marks et al. 2026

Marks et al. 2026

PulseAugur coverage of Marks et al. 2026 — every cluster mentioning Marks et al. 2026 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_122751 · Jul 2 · 21:58

AI模型的角色采纳：输出变化 vs. 内部信念转变

研究人员调查了语言模型在角色扮演时是真正内化了角色，还是仅仅改变了输出。他们通过提示、上下文学习、监督微调和开放式角色训练来诱导角色，并通过真实性探测和行为测试来衡量内化程度。研究发现，提示、上下文学习和监督微调主要改变了模型的输出，代表性变化很小。然而，涌现式错位（Emergent Misalignment）对模型的真实性表征产生了显著改变，而开放式角色训练则显示出中间效果，尤其是在较大的模型中。

AI模型的角色采纳：输出变化 vs. 内部信念转变