研究人员发现,Transformer中的残差流(常被比作工作记忆)展现出与时间相关的独特几何性。通过分析Gemma-2-2B模型,他们发现跨越许多token的持久信息集中在一个低维子空间中,而不是弥散的。这些持久信息对序列顺序高度敏感,因为打乱token会急剧降低这些慢方向的时间尺度。 AI
影响 揭示了Transformer可能如何编码时间信息,可能指导未来的模型架构和可解释性方法。
排序理由 该集群包含一篇详细介绍Transformer模型内部实验发现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →