研究人员已证明,大型语言模型中的上下文学习是由分布式输出模板而非单点激活驱动的。通过多点干预,他们实现了高达96%的任务迁移率,并将第8层确定为上下文学习任务身份的因果位点。这一发现跨越了多种模型架构,表明在网络深度约30%处存在一个通用的干预窗口。 AI
影响 揭示了上下文学习依赖于分布式输出模板而非单点位置,这可能会影响模型的训练和提示方式。
排序理由 关于LLM上下文学习机制新发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →