研究人员分析了交叉熵训练如何塑造Transformer注意力头中的注意力分数和值向量。他们的工作引入了一种基于优势的注意力分数路由法则以及一种负责任加权的更新值机制。这种机制创造了一个反馈循环,其中查询和值共同专业化,使Transformer能够执行精确的概率推理。 AI
影响 解释了使Transformer能够进行概率推理的内部几何结构,为模型可解释性提供了见解。
排序理由 该集群包含一篇详细介绍新研究发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →