PulseAugur
实时 12:37:29
English(EN) Probing Persona-Dependent Preferences in Language Models

大型语言模型在不同角色下拥有共享的内部“偏好向量”

研究人员在大型语言模型中发现了一个共享的内部“偏好向量”,它会影响模型在不同角色下的行为。通过在 Gemma-3-27BQwen-3.5-122B 的激活数据上训练探针,他们发现该向量能够追踪甚至控制模型的任务和输出选择。即使模型采用诸如“乐于助人的助手”与“邪恶的”等对比鲜明的角色,这种表示似乎也基本保持一致。 AI

影响 识别出大型语言模型中与角色相关的偏好的共享内部机制,这表明有可能更精细地控制和理解模型行为。

排序理由 学术论文,详细介绍了关于模型内部表示的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

大型语言模型在不同角色下拥有共享的内部“偏好向量”

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Patrick Butlin ·

    Probing Persona-Dependent Preferences in Language Models

    Large language models (LLMs) can be said to have preferences: they reliably pick certain tasks and outputs over others, and preferences shaped by post-training and system prompts appear to shape much of their behaviour. But models can also adopt different personas which have radi…