研究人员调查了语言模型中行为表示的“知晓”与其“引导”能力之间的关系。他们发现,用于检测行为(如幻觉)的方向与用于控制该行为的方向并不相同,在多个模型和规模上都观察到了显著的几何差距。这种检测与引导之间的分离似乎源于预训练阶段,并且不会因指令调整而改变。虽然朝着引导方向进行的小幅旋转可以改善控制效果,但研究表明,检测是一个高维现象,简单的几何角度并非可引导性的可靠预测指标。 AI
影响 揭示了理解和控制语言模型行为之间存在根本性的脱节,可能影响未来的可解释性和对齐研究。
排序理由 学术论文,详细介绍了机械可解释性方面的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →