实体 Megatron-LM

Megatron-LM

PulseAugur coverage of Megatron-LM — every cluster mentioning Megatron-LM across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

SIGNIFICANT · CL_131038 · Jul 8 · 00:50

NVIDIA 发布 Audex，一个统一的音频-文本大语言模型，保留文本智能

NVIDIA 推出了 Audex (Nemotron-Labs-Audex-30B-A3B)，一个能够理解和生成音频及语音的统一音频-文本大语言模型。与许多文本性能有所下降的多模态模型不同，Audex 的设计旨在保持其 Nemotron-Cascade-2-30B-A3B 骨干模型的文本智能。该模型通过多阶段训练过程和纯文本强化学习来实现这一点，从而在文本基准测试中取得有竞争力的分数，并具备强大的音频能力，包括超越语音的通用音频生成。
RESEARCH · CL_50673 · May 25 · 13:16

新基准和方法推动多模态大语言模型能力发展

研究人员正在开发新的多模态大语言模型（MLLMs）方法，以提高它们对顺序音视频数据和大规模视觉识别的理解能力。一种方法DLLM-VSR使用扩散模型进行视觉语音识别，通过迭代去噪和解码转录文本取得了最先进的成果。另一篇论文介绍了SONIC-O1，这是一个用于评估MLLMs在真实世界音视频理解能力的基准，突出了不同人口群体之间的性能差异。此外，还在探索用于MLLMs高效训练和推理的新技术，包括用于训练的异构并行以及用于推理的“分而治之”策…
TOOL · CL_33818 · May 15 · 21:31

PyTorch 教程简化分布式人工智能模型推理

本文使用 PyTorch 解释了大型人工智能模型的分布式推理技术。它详细介绍了如何用最少的代码实现数据并行 (DP)、张量并行 (TP) 和流水线并行 (PP)。演示使用了一个小型模型和两个 GPU 来说明这些概念，旨在揭开 Megatron-LM 和 DeepSpeed 等复杂框架的神秘面纱。
TOOL · CL_51841 · May 15 · 13:10

新型1.58位大语言模型家族推理内存减少6倍

新一代大语言模型BitCPM-CANN家族采用了一种新颖的1.58位三元量化技术。这些模型参数量从0.5B到8B不等，显著减少了推理内存占用，约为全精度模型的六分之一。在华为Ascend NPU上进行的训练过程引入的开销极小，吞吐量仅下降5%。
RESEARCH · CL_11807 · Apr 30 · 18:55

新方法解决大语言模型量化问题，以提高效率和准确性

研究人员开发了多种通过量化提高大语言模型（LLM）效率的新方法。OSAQ 专注于利用低秩 Hessian 属性抑制权重异常值，实现精确的低比特仅权重量化。BWLA 引入了一个框架，用于 1 位权重量化和低比特激活，实现了显著的推理加速。AGoQ 通过采用感知层激活量化和 8 位梯度存储，以内存高效的方式进行分布式训练，减少了内存使用并提高了训练速度。
RESEARCH · CL_01012 · Feb 4 · 18:00

为什么英伟达与 Bryan Catanzaro 一起构建开放模型

英伟达正在显著扩展其开放模型计划，发布更高质量的模型和数据集。该战略通过从开放语言模型中获取价值，为英伟达创造可持续的优势。公司的努力包括 Nemotron 系列，近期发布了 Nemotron 3 Nano 以及即将推出的 Super 和 Ultra 版本，同时还提供了一套全面的训练软件和数据集。