Nvidia B200 · PulseAugur

NVIDIA 发布基于 DeepSeek-V3 架构的 Kimi-K2.7-Code

NVIDIA 发布了 Kimi-K2.7-Code，这是一个基于 DeepSeek-V3 架构的开源模型。该模型拥有 320 亿活跃参数和 256,000 个 token 的上下文窗口。它在 vLLM 框架内使用了推测解码，并已针对 NVFP4 硬件进行了量化部署，支持文本、图像和视频模态。性能评估包括 SWE-bench Verified 和 Terminal-Bench 2.1，但训练数据中包含有毒内容。

TOOL · CL_130918 · Jul 7 · 19:06

GLM-5.2 在 8x B200 GPU 上的部署倾向于使用 NVFP4 以获得最佳吞吐量

一项技术分析显示，在 8x NVIDIA B200 GPU 上部署 GLM-5.2 模型，使用四个 GPU 上的 NVFP4 精度比使用所有八个 GPU 上的 FP8 精度更有效。该配置的 FP8 设置模型权重约占 459 GB，并为 KV 缓存留有充足空间，吞吐量几乎是 FP8 设置的两倍。分析表明，对于中等并发，模型的性能受内存带宽限制，因此 NVFP4 是最大化每秒每美元代币的更有效选择。

FRONTIER RELEASE · CL_130046 · Jul 7 · 10:45

NVIDIA 发布 Nemotron-Labs-3-Puzzle-75B 以支持 Blackwell 硬件

NVIDIA 发布了其 Nemotron-Labs-3-Puzzle-75B 模型，该模型已针对 Blackwell 硬件上的服务进行了优化。该模型集成了 LatentMoE、Mamba-Interleaving 和 Multi-Token Prediction (MTP) 以提高吞吐量。它在 OpenMDW-1.1 许可下可用，允许商业使用。

RESEARCH · CL_129929 · Jul 7 · 07:59

基于《火箭联盟》数据训练的MIRA AI模型发布，并附带演示

一款名为MIRA的新AI模型已发布，该模型专为多人交互世界建模而设计，并在《火箭联盟》游戏数据上进行了训练。MIRA由General Intuition、Kyutai和Epic Games合作开发，拥有50亿参数，可在单个B200 GPU上以每秒20帧的速度运行。该项目包括一个可在线玩的演示、一份技术报告以及一个包含1000小时四人游戏数据的的数据集。

RESEARCH · CL_128708 · Jul 7 · 04:00

NVIDIA压缩Nemotron-3大语言模型，吞吐量提升2倍，100万token并发提升8倍

NVIDIA研究人员开发了Nemotron-Labs-3-Puzzle-75B-A9B，这是其Nemotron-3-Super大语言模型的压缩版本。该新变体显著提高了部署效率，在8xB200节点上实现了高达2倍的服务器吞吐量，并在单个H100 GPU上实现了高达8个并发100万token请求。通过结合迭代式Puzzle压缩、知识蒸馏和量化等技术的阶段性流水线实现了压缩，同时在很大程度上保留了模型在下游任务中的准确性。

TOOL · CL_120530 · Jul 1 · 16:40

NVIDIA 量化 Mistral Medium 3.5 以减少 GPU 内存占用

NVIDIA 已使用其 Model Optimizer v0.44.0 和 NVFP4 量化方法量化了 Mistral Medium 3.5 (128B) 模型。此过程显著降低了 GPU 内存需求，同时精度损失可忽略不计，MMLU Pro 基准测试的微小下降（82.31% 对比 82.20%）证明了这一点。量化后的模型可通过 vLLM 在 NVIDIA B200 GPU 上进行部署。

RESEARCH · CL_119164 · Jul 1 · 00:25

Anthropic 的 Fable 5 重新上线；Etched 融资 8 亿美元用于 AI 芯片；Gemini 图像生成免费

Anthropic 的 Claude Fable 5 模型已重新上线，此前美国商务部因国家安全问题取消了出口管制。在谈判后，这些管制的取消使得该模型能够再次在全球范围内访问，尽管此次事件凸显了云端 AI 模型潜在的脆弱性。在其他新闻中，AI 芯片初创公司 Etched 已获得 8 亿美元融资和超过 10 亿美元的合同，专注于为 transformer 架构优化的芯片，而 Google 已将其 Gemini 个性化图像生成功能免费提供给…

RESEARCH · CL_105413 · Jun 23 · 09:00

NVIDIA GPU 和 Grace CPU 为全球 81% 的最快超级计算机提供动力

NVIDIA 技术在最新的 TOP500 和 Green500 超级计算机排名中占据主导地位，为 TOP500 系统中的 81% 和 Green500 排名的前八名提供动力。该公司日益将 Grace CPU 和 GPU 集成到这些高性能机器中，Grace CPU 的采用量翻了一番。这种广泛的应用凸显了对人工智能、模拟和科学研究中加速计算日益增长的需求，NVIDIA 系统整体上提供了优于所有其他平台的卓越人工智能训练和推理能力。

TOOL · CL_108532 · Jun 22 · 12:35

Inferra提议建立GPU计算期货交易所以解决碎片化市场问题

由于访问碎片化、H100等高需求芯片分配不均以及供应商之间缺乏价格透明度，为AI开发采购GPU仍然充满挑战。现有的解决方案，如预留实例、竞价实例和Vast.ai等市场，未能充分解决这些问题。一个名为Inferra的新项目正在提议建立一个GPU计算的衍生品交易所，提供特定芯片的永续期货，以实现价格发现和对冲未来需求。

TOOL · CL_101579 · Jun 20 · 10:01

Claude Opus 4.8 在 KernelBench-Mega 基准测试中领先，性能超越 NVIDIA GPU

一项名为 KernelBench-Mega 的新基准测试已发布，该测试涉及为每个生成的 token 重写 GPU megakernels。该基准测试在 NVIDIA 的 RTX PRO 6000、H100 和 B200 GPU 上进行了测试，Claude Opus 4.8 表现出卓越的性能，在 B200 上相比参考模型速度提升高达 19.4 倍。GLM-5.2 在此次评估中成为性能最佳的开源模型。

TOOL · CL_101245 · Jun 19 · 00:00

Modal 发布 Qwen 投机解码器，LLM 推理速度提升 5-20% · 跟踪 1 个来源

Modal 发布了一套用于 Qwen 系列的新投机解码模型，旨在显著加速 LLM 推理。这些模型与 z-Labor 合作开发并与 SGLang 集成，在现有 DFlash 投机器之上提供了额外的 5-20% 加速。这一进步使得 Qwen 3.5 122B-A10B 等模型在高端硬件上能够达到每秒 1000 多个 token，同时保持长上下文任务的性能。Modal 强调投机解码是 LLM 推理的关键优化，与传统的内核优化相比，能够带来显…

RESEARCH · CL_99441 · Jun 18 · 21:36

Rust 推理引擎 Grout 提供安全的 GPU 性能，可与 vLLM 媲美

一款名为 Grout 的新 Rust 推理引擎已被开发出来，它提供安全的 GPU 推理，性能可与 vLLM 和 SGLang 等现有解决方案相媲美。Grout 使用 cuTile Rust 构建，通过编译器验证确保内存安全和数据竞争自由，使其成为值得信赖的 AI 生成代码选项。该引擎表现出强大的性能，在 RTX 5090 上实现了 Qwen3-4B 的 171 tokens/sec，在 B200 上实现了 Qwen3-32B 的 82…

TOOL · CL_98292 · Jun 18 · 07:33

Nvidia H100 GPU 定价及 2026 年替代方案

2026 年，Nvidia H100 GPU 仍是 AI 基础设施的关键组成部分，购买价格从 30,000 美元到 40,000 美元以上不等。云租赁成本差异很大，专业 GPU 云比 AWS、Azure 和 Google Cloud 等超大规模云服务商提供更低的费率。H200 和 B200 等新型号也已上市，提供更大的内存和有竞争力的定价，尤其适用于内存密集型推理任务。

TOOL · CL_93648 · Jun 16 · 04:00

新的 ReQAT 框架使 4 位量化 LLM 能够匹配全精度推理

研究人员开发了 ReQAT，一种新颖的训练框架，旨在使大型推理模型 (LRM) 即使在量化为 4 位浮点格式时也能实现全精度推理准确性。现有的量化方法在处理数字和运算符等低熵标记时遇到困难，导致推理能力下降。ReQAT 通过 Trace-Aligned QAT、选择性熵最小化和 Q-FIT 初始化来解决此问题，这些方法共同关注关键决策并稳定训练。这种方法不仅恢复了标准微调的准确性，甚至超越了它，同时显著提高了推理速度并降低了硬件要求。

RESEARCH · CL_96114 · Jun 11 · 00:00

新分析揭示了 GPU 饱和如何影响分解式 AI 推理

研究人员开发了一种用于分解式推理架构的博弈论分析，该架构将预填充和解码阶段分离到不同的 GPU 池中。该研究以 NVIDIA Dynamo 为案例研究，将该系统建模为三个耦合博弈，并识别出 GPU 饱和如何导致性能下降。基于此分析，设计了一个自适应控制器来优化路由和降低延迟，在降低无政府状态代价方面显示出显著的改进。

SIGNIFICANT · CL_81072 · Jun 9 · 14:20

DeepSeekV4 展现出快速的性能提升，挑战顶级AI模型

拥有1.6万亿参数的DeepSeekV4模型在其发布后的43天内展现出显著的性能提升。早期基准测试表明，该模型在推理和编码等领域具有竞争力，甚至超越了GPT-4和Claude 3 Opus等成熟模型。该模型的开发得到了Huawei先进计算基础设施的支持，包括其GB300 NVL72和MI355X加速器，以及NVIDIA的B200 GPU，这表明了强大的软硬件协同作用。

COMMENTARY · CL_79311 · Jun 9 · 02:11

每瓦特令牌数将决定 2026 年 GPU 和散热方案

2026 年 AI 计算的主要瓶颈将从原始处理能力转向效率，特别是每瓦特令牌数。这是因为推理（目前占 AI 计算支出的绝大部分）本质上是一个功耗受限的问题，尤其是在数据中心功耗分配固定的情况下。因此，能够最大化每兆瓦特生成令牌数的最高效 GPU 将比那些拥有最高 FLOPS 的 GPU 更受青睐。服务软件和数值精度（如 FP8 和 FP4）的进步可以在不要求新硬件的情况下显著降低每令牌成本，提供比仅购买更多 GPU 更直接、更具成本效…

RESEARCH · CL_78783 · Jun 8 · 21:01

Together AI 为推理增加了数千块 NVIDIA B200/B300 芯片

Together AI 已显著扩展其云计算资源，增加了数千块新芯片，包括 NVIDIA 的 B200 和 B300 加速器。此举旨在加强其专用模型推理服务，为人工智能模型的部署和运行提供增强的功能。

TOOL · CL_77245 · Jun 8 · 04:00

FP8 配合重建方案可匹配 HPC 中的 FP64 精度

一篇新研究论文挑战了长期以来认为双精度 (FP64) 硬件对高性能计算 (HPC) 至关重要的观点。作者提出，使用 FP8 张量核心，结合 Ozaki Scheme II 等特定重建方案，可以达到完整的 FP64 精度。这种方法有望在下一代 GPU 上显著提升性能，可能使许多科学计算任务的本地 FP64 芯片过时。

TOOL · CL_73821 · Jun 5 · 17:53

AI训练GPU租赁成本计算器上线

一个新的计算器帮助用户比较租用各种GPU进行AI任务的成本。它分析了RunPod、Lambda、Vast.ai和AWS等平台上的RTX 4090、A100、H100和B200 GPU的价格。该工具同时考虑了按需定价和竞价定价，以估算训练或服务AI模型的实际成本。