PulseAugur
实时 18:12:56
English(EN) Algebraic Dead Directions in LayerNorm Transformers: A Forward-Pass-Only Diagnostic at LLM Scale

新的诊断工具可识别 LayerNorm Transformer 中的“死方向”

研究人员已识别出一种代数方法来检测 LayerNorm Transformer 中的“死方向”,这些方向是 Fisher 信息度量消失的参数空间方向。这项发表在 arXiv 上的新诊断技术仅使用 LayerNorm 尺度参数即可查明这些死方向,无需进行计算密集型的前向传播或特征值分解。该方法已在 14 个预训练 Transformer 上成功测试,准确预测了 LayerNorm 模型中的死方向,并正确识别了 RMSNorm 模型中死方向的缺失,证明了其效率和特异性。 AI

影响 这项研究提供了一种更有效的方式来分析和理解大型语言模型的内部工作原理,有望提高训练稳定性和性能。

排序理由 该集群包含一篇详细介绍 Transformer 模型新诊断方法的学术论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的诊断工具可识别 LayerNorm Transformer 中的“死方向”

报道来源 [2]

  1. arXiv stat.ML TIER_1 English(EN) · Tejas Pradeep Shirodkar, P. J. Narayanan ·

    Algebraic Dead Directions in LayerNorm Transformers: A Forward-Pass-Only Diagnostic at LLM Scale

    arXiv:2606.19491v1 Announce Type: cross Abstract: Pretrained transformers sit near singular minima of the loss, where the Fisher information metric degenerates along dead directions: directions in parameter space along which the directional Fisher vanishes. Locating such a direct…

  2. arXiv stat.ML TIER_1 English(EN) · P. J. Narayanan ·

    LayerNorm Transformer 中的代数死方向:LLM 规模下的仅前向传播诊断

    Pretrained transformers sit near singular minima of the loss, where the Fisher information metric degenerates along dead directions: directions in parameter space along which the directional Fisher vanishes. Locating such a direction normally needs a forward pass and an eigendeco…