RMSNorm · PulseAugur

ai-sage 发布 4320 亿参数的 GigaChat 3.5 Ultra

ai-sage 发布了 GigaChat 3.5 Ultra，这是一款拥有 4320 亿参数的混合专家模型，专为多语言任务、推理和代码生成而设计。与前代 GigaChat 3.1 Ultra 相比，新版本体积缩小了约 40%，同时在编码和数学场景下性能有所提升。GigaChat 3.5 Ultra 采用混合注意力架构，结合了多头潜在注意力 (Multi-head Latent Attention) 和门控 Delta 网络 (Gate…

RESEARCH · CL_119632 · Jun 30 · 17:02

新方法提高了LLM检查点迁移的准确性

研究人员开发了一种名为Signed-Permutation Coordinate Transport (SPCT)的新方法，以提高大型语言模型 (LLM) 检查点之间信息迁移的准确性。该技术通过同时考虑模型参数的置换和符号变化，解决了现有方法（尤其是在基于RMSNorm的模型上）的局限性。SPCT显著提高了坐标迁移的准确性，从而在稀疏自编码器重建和情感引导等任务中获得更好的性能。

RESEARCH · CL_119631 · Jun 30 · 15:53

Review Residuals 改进了 Transformer 的大规模训练稳定性和性能

研究人员为 Transformer 模型引入了一种名为“Review Residuals”的新型门控机制，旨在提高训练的稳定性和性能，尤其是在大规模应用中。该方法使用学习到的、依赖于输入的门来缩放子层更新，这与标准的残差连接不同。实验表明，虽然门控的凸形式在深度方面存在困难，但保持身份的加法形式可以在各种深度下稳定训练。此外，Review Residuals 在参数量从 5.9 亿到 10 亿的模型中，相比标准的残差连接和 Highw…

TOOL · CL_116105 · Jun 29 · 10:42

现代 LLM Transformer 块通过 RMSNorm、GQA 和 MoE 演进

大型语言模型 (LLM) 中的现代 Transformer 块已超越最初的 2017 年设计，以提高训练稳定性、上下文长度、推理效率和模型容量。关键的进步包括使用 RMSNorm 进行更简单、更稳定的归一化，使用分组查询注意力 (GQA) 和旋转位置嵌入 (RoPE) 来优化注意力机制，以及在前馈网络中使用 SwiGLU 或专家混合 (MoE) 来增强表达能力和容量。这些修改解决了关键的扩展挑战，使大规模 LLM 的开发和部署更加实用。

RESEARCH · CL_111635 · Jun 25 · 17:51

RayPE编码提升视频生成模型的三维感知能力

研究人员开发了RayPE，一种用于视频扩散Transformer的新型位置编码方法，可增强三维感知能力。与使用相机网格坐标的现有方法不同，RayPE结合了6D Plucker坐标来捕捉相机射线之间的几何关系。该方法将注意力分数分解为内容和几何项，两者都被发现对性能至关重要。该方法轻量级，为现有模型增加的参数不到0.1%，并在相机可控性、帧间三维一致性以及整体视频质量方面取得了改进。

RESEARCH · CL_99805 · Jun 18 · 09:58

新的 QG-MIL 架构提高了医学影像分析的准确性

研究人员开发了 QG-MIL，这是一种新颖的门控 Transformer 聚合器，旨在提高医学影像中多实例学习 (MIL) 的稳定性和准确性。这种新架构通过引入基于 RMSNorm 的预归一化、每头 QK 归一化、细粒度注意力输出门控和 SwiGLU 前馈模块来解决过度自信和不稳定的预测问题。QG-MIL 在病理学和血液学六个基准测试中表现出色，平均比现有方法高出 6.1 个宏平均 F1 分数，并显示出更分布式的实例加权。

RESEARCH · CL_99566 · Jun 17 · 18:28

新的诊断工具可识别 LayerNorm Transformer 中的“死方向”

研究人员已识别出一种代数方法来检测 LayerNorm Transformer 中的“死方向”，这些方向是 Fisher 信息度量消失的参数空间方向。这项发表在 arXiv 上的新诊断技术仅使用 LayerNorm 尺度参数即可查明这些死方向，无需进行计算密集型的前向传播或特征值分解。该方法已在 14 个预训练 Transformer 上成功测试，准确预测了 LayerNorm 模型中的死方向，并正确识别了 RMSNorm 模型中死方…

TOOL · CL_96153 · Jun 17 · 04:00

新型 MIVE 引擎加速大语言模型归一化操作

研究人员开发了一种名为 MIVE（Minimalist Integer Vector Engine，极简整数向量引擎）的新硬件架构，旨在加速大语言模型（LLMs）中的关键操作。MIVE 是一种可编程引擎，可以在单个数据通路中高效处理 Softmax、LayerNorm 和 RMSNorm 功能，从而减少对重复硬件资源的需求。ASIC 实现表明，与现有针对这些操作的独立加速器相比，MIVE 在面积和硬件效率方面均有所提高。

RESEARCH · CL_93581 · Jun 15 · 07:16

新的QK-Normed MLA方法在无需完全缓存键的情况下稳定LLM注意力

研究人员开发了QK-Normed MLA，一种无需完全缓存键即可稳定大型语言模型中注意力机制的方法。该技术通过分解RMSNorm并将静态权重吸收到现有投影中，将QK归一化集成到多头潜在注意力（MLA）中。与QK剪枝相比，该方法在保持MLA高效解码的同时，实现了更低的训练损失和更高的下游准确性，并且在Nvidia H800硬件上具有最小的延迟开销。

RESEARCH · CL_65711 · Jun 2 · 04:00

新论文通过谱几何分析神经网络的“领悟”现象

两篇新的arXiv论文探讨了神经网络中“领悟”（grokking）现象，即模型在记忆训练数据后才能泛化。其中一篇论文提出“低秩衰减”（Low-Rank Decay, LRD）作为谱正则化器，通过压缩奇异值来改善领悟，并表明它可以加速秩崩溃并扩大泛化能力的数据分数边界。另一篇论文将领悟视为一个约束优化问题，证明了梯度下降在零损失流形上最小化权重范数，并推导出了记忆后动力学的闭式表达式。

TOOL · CL_26875 · May 11 · 16:20

Transformer大语言模型架构趋向标准化栈

对2017年至2025年间53个大语言模型的最新分析显示，Transformer架构正显著趋同。这一事实上的标准包括预归一化 (RMSNorm)、旋转位置嵌入 (RoPE)、MLP中的SwiGLU激活函数以及共享键值注意力机制 (MQA/GQA)。这种趋同归因于优化稳定性提高、每FLOP质量提升以及内核可用性和KV缓存经济性等实际考量。

RESEARCH · CL_09211 · Apr 29 · 15:01

IBM 发布 Granite 4.1 LLMs，支持 512K 上下文并采用 Apache 2.0 许可

IBM 发布了 Granite 4.1 系列大型语言模型，包含 3B、8B 和 30B 参数版本。这些模型通过包含将上下文窗口扩展到 512K 标记的五阶段预训练过程，在约 15 万亿个标记上进行了训练。进一步的优化包括在精选数据上进行监督微调和强化学习。值得注意的是，8B 指令模型取得了与更大的 Granite 4.0 MoE 模型相当的性能，并且所有 Granite 4.1 模型均根据 Apache 2.0 许可提供。

RESEARCH · CL_06849 · Apr 28 · 04:00

FlashNorm 加速 Transformer 推理，优化归一化层

研究人员开发了 FlashNorm 技术，用于加速 Transformer 模型中的归一化层。通过重构 RMSNorm 并将其权重折叠到后续的线性层中，FlashNorm 实现了归一化和矩阵乘法的并行执行，从而降低了延迟。该方法还可以消除 Gemma 和 DeepSeek-V2 等架构中的预注意力 RMSNorm 层，简化实现并减少参数数量。

RESEARCH · CL_03769 · Apr 26 · 04:31

DeepSeek-V4、LoRA 及其他 LLM 技术在新博客中详述

Outcome School 上线了一系列六篇博客文章，详细介绍了当代大型语言模型的基本组成部分。这些文章涵盖了 RMSNorm、DeepSeek-V4、LoRA、RoPE、GQA 和交叉熵损失等技术概念。这些解释旨在解读支撑现代人工智能系统的核心构建模块。