研究人员在大型语言模型中发现了一个共享的内部“偏好向量”,它会影响模型在不同角色下的行为。通过在 Gemma-3-27B 和 Qwen-3.5-122B 的激活数据上训练探针,他们发现该向量能够追踪甚至控制模型的任务和输出选择。即使模型采用诸如“乐于助人的助手”与“邪恶的”等对比鲜明的角色,这种表示似乎也基本保持一致。 AI
影响 识别出大型语言模型中与角色相关的偏好的共享内部机制,这表明有可能更精细地控制和理解模型行为。
排序理由 学术论文,详细介绍了关于模型内部表示的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →