PulseAugur
实时 04:04:10
English(EN) The Residual Stream Has a Geometry of Time

Transformer残差流展现时间几何性,集中上下文

研究人员发现,Transformer中的残差流(常被比作工作记忆)展现出与时间相关的独特几何性。通过分析Gemma-2-2B模型,他们发现跨越许多token的持久信息集中在一个低维子空间中,而不是弥散的。这些持久信息对序列顺序高度敏感,因为打乱token会急剧降低这些慢方向的时间尺度。 AI

影响 揭示了Transformer可能如何编码时间信息,可能指导未来的模型架构和可解释性方法。

排序理由 该集群包含一篇详细介绍Transformer模型内部实验发现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Transformer残差流展现时间几何性,集中上下文

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 English(EN) · Fodenthal ·

    残差流具有时间几何

    <h1>Preface</h1> <p>This is a preliminary writeup for an experiment on residual stream geometry. The research direction seems pretty underexplored, so I’m posting early to collect objections, research intuitions, and connections to problems other people are thinking about before …