实体 Mamba-Transformer

Mamba-Transformer

PulseAugur coverage of Mamba-Transformer — every cluster mentioning Mamba-Transformer across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 5

层级分布 · 90 天

frontier release 1
research 4
tool 2

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

RESEARCH · CL_139194 · Jul 10 · 00:00

开源 Soofi S 30B-A3B 模型发布，支持德语和英语

研究人员推出 Soofi S 30B-A3B，一个专为德语和英语设计的新型开源基础模型。该模型采用混合 Mamba-Transformer 架构，每个 token 只激活其 300 亿参数中的 30 亿，这为长上下文应用提供了显著的吞吐量优势。Soofi S 在约 27 万亿 token 上进行了训练，并展现出与更大密集模型相媲美的性能，尤其在代码生成任务上表现出色，超越了其他欧洲主权模型。该模型在慕尼黑的 Deutsche Tele…
SIGNIFICANT · CL_131038 · Jul 8 · 00:50

NVIDIA 发布 Audex，一个统一的音频-文本大语言模型，保留文本智能

NVIDIA 推出了 Audex (Nemotron-Labs-Audex-30B-A3B)，一个能够理解和生成音频及语音的统一音频-文本大语言模型。与许多文本性能有所下降的多模态模型不同，Audex 的设计旨在保持其 Nemotron-Cascade-2-30B-A3B 骨干模型的文本智能。该模型通过多阶段训练过程和纯文本强化学习来实现这一点，从而在文本基准测试中取得有竞争力的分数，并具备强大的音频能力，包括超越语音的通用音频生成。
RESEARCH · CL_93241 · Jun 12 · 00:00

Nemotron 3 Ultra：开源 LLM 拥有百万级上下文、6倍吞吐量

研究人员发布了 Nemotron 3 Ultra，这是一个拥有 5500 亿参数的语言模型，它采用了混合 Mamba-Transformer 架构和专家混合（Mixture-of-Experts）方法。该模型在 20 万亿个 token 上进行了训练，拥有百万级 token 的上下文长度，并采用了 LatentMoE 和 Multi Token Prediction 等先进技术。与当前最先进的模型相比，Nemotron 3 Ultra…
FRONTIER RELEASE · CL_71132 · Jun 4 · 13:01

NVIDIA发布用于代理和ASR的开源550B Nemotron 3模型

NVIDIA发布了其开源模型Nemotron 3系列，包括Nemotron 3 Ultra和Nemotron 3.5 ASR。Nemotron 3 Ultra是一个拥有5500亿参数的模型，专为长期AI代理设计，采用混合Mamba-Transformer架构和100万token的上下文窗口。Nemotron 3.5 ASR则针对流式语音识别和语音代理进行了优化。这些模型可在Together AI上获取，为各种AI应用提供高推理吞吐量和准确性。
RESEARCH · CL_36662 · May 18 · 08:42

NVIDIA 推出 LLM 的 4 位预训练方法 NVFP4

NVIDIA 开发了一种新的 4 位预训练方法 NVFP4，旨在克服窄浮点格式中动态范围减小和量化误差增加的挑战。该方法通过在 10 万亿词元上预训练一个 120 亿参数的混合 Mamba-Transformer 模型得到了成功验证，标志着迄今为止公开记录的最长 4 位精度训练运行。在 MMLU-Pro 基准测试中，所得模型在性能上几乎与 FP8 基线相同，证明了 NVFP4 在大规模模型训练中的可行性。
TOOL · CL_21962 · May 8 · 04:00

新型nGPT架构实现大语言模型原生4位训练

研究人员开发了一种名为nGPT的新型神经网络架构，该架构原生支持大语言模型的4位精度训练。该架构将权重和隐藏表示约束在单位超球面上，增强了对低精度算术的鲁棒性，并消除了对复杂缩放干预的需求。该方法已在高达300亿参数的模型上得到验证，显示出信噪比的提高和更稳定的损失曲线，预示着对更大规模模型具有显著优势。
RESEARCH · CL_01012 · Feb 4 · 18:00

为什么英伟达与 Bryan Catanzaro 一起构建开放模型

英伟达正在显著扩展其开放模型计划，发布更高质量的模型和数据集。该战略通过从开放语言模型中获取价值，为英伟达创造可持续的优势。公司的努力包括 Nemotron 系列，近期发布了 Nemotron 3 Nano 以及即将推出的 Super 和 Ultra 版本，同时还提供了一套全面的训练软件和数据集。