研究人员在大型语言模型中识别出一个负责动态实体跟踪的特定电路。这种机制被称为可检索条件再绑定电路,负责将实体与其属性绑定,并在模型处理状态变化时更新这些信息。研究发现Gemma和Llama等模型中都存在该电路,尽管其实现方式有所不同,Gemma在查询/键子空间中表达绑定信息,而Llama主要在键向量中表达。 AI
影响 揭示了一种可解释的状态跟踪机制,可能有助于理解和改进LLM的推理能力。
排序理由 该集群包含一篇学术论文,详细介绍了关于大型语言模型内部机制的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →