研究人员调查了一个语言模型在推理过程中是否可以直接将其内部推理状态转移到另一个模型。虽然一个线性转换层成功地将高相似度 Pythia 模型之间的隐藏状态映射起来,但注入这些转换后的激活并没有提高接收模型的性能。研究发现,低强度加性注入和替换式注入均无效,这表明在这种特定设置下,离线表示对齐本身不足以实现模型之间的因果通信。 AI
影响 展示了模型间直接通信的局限性,表明当前转移学习到的推理的方法不足。
排序理由 该集群包含一篇详细介绍实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →