研究人员进行了实验,分析了训练过的Transformer模型激活空间中的亚稳态。研究证实,token跨层聚集形成持久的组,这与注意力动力学系统模型的理论预测相呼应。然而,实验证伪了该理论的关键方面,发现驱动聚集的能量并非单调,且坍缩速度由值矩阵而非模型深度决定。 AI
影响 证实了关于Transformer中token聚集的理论预测,同时指出了基础能量模型的局限性。
排序理由 该聚类描述了对Transformer模型的理论论文和实验结果的分析,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →