LayerNorm · PulseAugur

新的审计工具揭示表示压缩在神经网络中滞后于泛化

开发了一个新的审计工具来分析神经网络中的“grokking”现象，特别是检查泛化后表示的压缩情况。该工具显示，对于模运算任务，嵌入压缩在泛化后可以持续数万步，显著高估了收敛值。研究表明，在 transformer 中添加 LayerNorm 可以减少 grokking 阶段的压缩程度。

RESEARCH · CL_119632 · Jun 30 · 17:02

新方法提高了LLM检查点迁移的准确性

研究人员开发了一种名为Signed-Permutation Coordinate Transport (SPCT)的新方法，以提高大型语言模型 (LLM) 检查点之间信息迁移的准确性。该技术通过同时考虑模型参数的置换和符号变化，解决了现有方法（尤其是在基于RMSNorm的模型上）的局限性。SPCT显著提高了坐标迁移的准确性，从而在稀疏自编码器重建和情感引导等任务中获得更好的性能。

TOOL · CL_116105 · Jun 29 · 10:42

现代 LLM Transformer 块通过 RMSNorm、GQA 和 MoE 演进

大型语言模型 (LLM) 中的现代 Transformer 块已超越最初的 2017 年设计，以提高训练稳定性、上下文长度、推理效率和模型容量。关键的进步包括使用 RMSNorm 进行更简单、更稳定的归一化，使用分组查询注意力 (GQA) 和旋转位置嵌入 (RoPE) 来优化注意力机制，以及在前馈网络中使用 SwiGLU 或专家混合 (MoE) 来增强表达能力和容量。这些修改解决了关键的扩展挑战，使大规模 LLM 的开发和部署更加实用。

RESEARCH · CL_107913 · Jun 23 · 13:23

新的SPOFA框架稳定异构知识蒸馏

研究人员开发了SPOFA，一个旨在稳定异构知识蒸馏（HKD）的新框架。HKD旨在传输不同模型架构（如Transformers和CNNs）之间的知识，但由于特征范数差异和梯度冲突，常常面临训练不稳定的问题。SPOFA通过双重稳定机制解决这些问题，该机制解耦特征幅度，并使用动量驱动的缩放器来适应性地惩罚冲突梯度，以最小的计算开销实现了最先进的准确性。

TOOL · CL_104679 · Jun 19 · 06:04

新协议揭示深度学习反馈对齐方法中的隐性故障

研究人员发现，深度学习中反馈对齐（FA）技术的标准评估方法存在重大局限性。目前的评估依赖于任务准确率和梯度余弦相似度，但这会掩盖关键的故障模式。一个问题是测量退化，即在某些架构中梯度会崩溃，导致余弦相似度失去意义。另一个问题是聚合崩溃，即层级异质性被聚合分数所隐藏。为了解决这个问题，提出了一种使用尺度稳定性、参考有效性和深度效用检查的新诊断协议，以及逐层余弦报告，以更好地识别和指导有效的FA方法的开发。

TOOL · CL_98023 · Jun 18 · 04:00

权重范数在神经网络 Grokking 中的作用得到阐明

研究人员调查了神经网络中“Grokking”现象，即模型从记忆转向泛化。他们的发现表明，先前被认为是这种转变主要驱动因素的权重范数，主要充当 Logit 尺度的上游控制。通过直接操纵 Logit 尺度，研究人员可以控制 Grokking 延迟的整个范围，而权重范数仅产生微小的附加效应。发现这种关系取决于所使用的损失函数，均方误差显示出与交叉熵不同的机制。

RESEARCH · CL_99566 · Jun 17 · 18:28

新的诊断工具可识别 LayerNorm Transformer 中的“死方向”

研究人员已识别出一种代数方法来检测 LayerNorm Transformer 中的“死方向”，这些方向是 Fisher 信息度量消失的参数空间方向。这项发表在 arXiv 上的新诊断技术仅使用 LayerNorm 尺度参数即可查明这些死方向，无需进行计算密集型的前向传播或特征值分解。该方法已在 14 个预训练 Transformer 上成功测试，准确预测了 LayerNorm 模型中的死方向，并正确识别了 RMSNorm 模型中死方…

TOOL · CL_96153 · Jun 17 · 04:00

新型 MIVE 引擎加速大语言模型归一化操作

研究人员开发了一种名为 MIVE（Minimalist Integer Vector Engine，极简整数向量引擎）的新硬件架构，旨在加速大语言模型（LLMs）中的关键操作。MIVE 是一种可编程引擎，可以在单个数据通路中高效处理 Softmax、LayerNorm 和 RMSNorm 功能，从而减少对重复硬件资源的需求。ASIC 实现表明，与现有针对这些操作的独立加速器相比，MIVE 在面积和硬件效率方面均有所提高。

TOOL · CL_93301 · Jun 16 · 04:00

Z-Plane 神经网络取代 ReLU 和 LayerNorm，实现稳定的深度学习

研究人员推出了一种名为 Z-Plane 神经网络的新型神经网络架构，它取代了传统的激活函数（如 ReLU）和归一化技术（如 LayerNorm）。这种新方法将隐藏状态映射到超球体上的二维相量束，并利用一种称为径向有界的几何激活函数。该方法旨在防止梯度不稳定、避免神经元死亡并保留方向信息。一个 100 层的 Z-Plane 多层感知机在 MNIST 数据集上展示了成功的收敛性和数值稳定性，在没有 ReLU 或 LayerNorm 的情况…

TOOL · CL_91441 · Jun 15 · 04:00

研究论文：PostDeg 通过优化 LayerNorm 标量放置来增强 GNN

一篇题为“PostDeg: Placement Beats Parameterization in LayerNorm GNNs”的新研究论文已提交至 arXiv。该论文指出，在基于 LayerNorm 的图神经网络 (GNN) 中，每个节点的正标量的放置位置对其保留拓扑信号的能力有显著影响。作者提出了“PostDeg”，一种无参数方法，将此标量插入到 LayerNorm 之后，在诸如影响力最大化和网络拆解等任务上，与标准的 Laye…

TOOL · CL_91359 · Jun 15 · 04:00

神经网络“领悟”与权重范数动力学相关

研究人员调查了神经网络中“领悟”（grokking）现象，即模型在已拟合训练数据后仍发生泛化。他们的研究表明，权重范数在此延迟泛化中起着关键作用。通过在训练过程中干预和操纵权重范数，他们发现了一个始终达到的特定临界范数值 Wc，并且该值与网络的模块化基数呈幂律关系。此外，他们观察到将范数保持在 Wc 的固定倍数，会导致“领悟”延迟呈范数倍数的指数关系。

RESEARCH · CL_79207 · Jun 7 · 11:11

新的剪枝技术有望实现更小的模型和更快的训练速度

研究人员开发了新的神经网络和数据集剪枝方法以提高效率。DCP-Prune 专注于视觉模型的超低 token 剪枝，以显著更少的 token 实现高性能。Squeeze-Release 提供迭代剪枝和结构最小化，模型压缩高达 39 倍，同时保持准确性。此外，OrderDP 和一个基于图的框架提供了理论上保证的无损动态数据剪枝，在不牺牲性能的情况下将训练速度提高了 40% 以上。

TOOL · CL_68549 · Jun 3 · 04:00

SaluNet 用可学习激活替换归一化层

研究人员开发了 SaluNet，这是一种新颖的深度网络架构，无需传统的归一化层（如 BatchNorm 和 LayerNorm）。这是通过一种新的可学习激活函数 SALU 实现的，该函数在不依赖批次统计数据的情况下内在稳定信号。SaluNet 在图像分类任务（包括 CIFAR-10、CIFAR-100 和 ImageNet）上表现出色，即使在通常会导致归一化网络失败的非常小的批次大小下也是如此。

RESEARCH · CL_25556 · May 7 · 19:18

神经算子在插值、分辨率鲁棒性和贝叶斯推理方面取得进展

研究人员正在探索神经算子（一类用于学习函数空间之间映射的模型）的新应用和改进。一篇论文将神经算子重新构建为高效函数插值器，证明了它们在解析基准和核质量模型等科学数据中的有效性，同时比传统方法需要更少的参数和更短的训练时间。另一项研究引入了 QuadNorm，一种新颖的归一化技术，可增强神经算子的分辨率鲁棒性，减少不同数据分辨率之间的迁移误差，并提高在各种 PDE 基准上的性能。第三篇论文提出使用神经算子来摊销概率条件化，开发了一个可以…

RESEARCH · CL_06664 · Apr 28 · 04:00

研究：移除 LLM 中的 LayerNorm 可作为隐式正则化器，其影响取决于训练数据大小。

研究人员调查了从神经网络架构中移除层归一化（LayerNorm）的影响，特别是在 GPT-2 和 Llama 等模型中。他们的发现表明，用学习到的激活边界机制动态双曲正切（DyT）替换 LayerNorm，可以作为一种依赖于训练阶段的隐式正则化器。这意味着 DyT 可以在某些训练阶段（例如，较小的数据集）提高性能，但在其他阶段（例如，较大的数据集或增加模型容量）会降低性能。该研究表明，激活饱和是 DyT 性能的关键因素，其饱和水平因模…

RESEARCH · CL_03804 · Apr 25 · 16:08

AI安全研究提出计算基底的正式框架

这一系列帖子探讨了AI中的“基底”（substrates）概念，指的是实现AI系统所需的计算上下文层。作者认为，当前AI安全研究缺乏一个清晰的框架来推理这些基底，包括归一化技术和量化格式等元素。通过将基底的定义形式化为四个组成部分——语言、语义映射、资源配置和可观察接口——他们旨在提供一种更清晰的方式来分析和比较不同部署环境中AI模型的行为。

COMMENTARY · CL_04670 · Nov 24 · 00:00

Eugene Yan 分享举办每周 AI 论文俱乐部以建立学习社区的指南

Eugene Yan 详细介绍了其成功的每周论文俱乐部，该俱乐部已运行 18 个月，讨论了至少 80 篇与 AI 相关的论文。俱乐部专注于机器学习中的基础概念、模型、训练和推理技术。Yan 为他人建立类似的学习社区提供了实用指南，强调了持续的日程安排、预读和引导式讨论，以促进技术理解和建立专业人脉。