English(EN) Probing Persona-Dependent Preferences in Language Models

大型语言模型在不同角色下拥有共享的内部“偏好向量”

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-13 10:57

研究人员在大型语言模型中发现了一个共享的内部“偏好向量”，它会影响模型在不同角色下的行为。通过在 Gemma-3-27B 和 Qwen-3.5-122B 的激活数据上训练探针，他们发现该向量能够追踪甚至控制模型的任务和输出选择。即使模型采用诸如“乐于助人的助手”与“邪恶的”等对比鲜明的角色，这种表示似乎也基本保持一致。 AI

影响识别出大型语言模型中与角色相关的偏好的共享内部机制，这表明有可能更精细地控制和理解模型行为。

排序理由学术论文，详细介绍了关于模型内部表示的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Patrick Butlin · 2026-05-13 10:57

探究语言模型中与个体身份相关的偏好

Large language models (LLMs) can be said to have preferences: they reliably pick certain tasks and outputs over others, and preferences shaped by post-training and system prompts appear to shape much of their behaviour. But models can also adopt different personas which have radi…

报道来源 [1]

探究语言模型中与个体身份相关的偏好

相关实体

相关话题