NVIDIA H100
PulseAugur coverage of NVIDIA H100 — every cluster mentioning NVIDIA H100 across labs, papers, and developer communities, ranked by signal.
7 天有情绪数据
-
AMD的MI300X因软件问题在AI训练方面表现不佳
最近的基准测试分析显示,尽管AMD的MI300X在规格和总体拥有成本方面具有理论优势,但在AI训练工作负载方面,它与NVIDIA的H100和H200相比缺乏竞争力。主要原因是AMD的软件栈不成熟且存在错误,这阻碍了其开箱即用的可用性和性能。虽然AMD的工程师已展现出修复问题的能力,但该公司整体的软件质量保证文化和开发方法需要显著改进,才能挑战NVIDIA成熟的CUDA生态系统。
-
New method optimizes ML deployment in crash-prone search spaces
Researchers have developed a new method called Thermal Budget Annealing (TBA) to optimize the deployment of machine learning models in challenging environments. This approach addresses issues where many configurations c…
-
新的架构和框架针对长上下文的LLM服务瓶颈
研究人员开发了新的架构和技术,以解决服务具有长上下文的大型语言模型(LLMs)时日益增长的延迟和能耗挑战。一种名为AMMA的方法提出了一种以内存为中心的多芯片设计,用HBM-PNM立方体取代GPU计算芯片,以提高内存带宽,与NVIDIA H100相比,在延迟和能耗方面实现了显著降低。另一个框架SPIN将稀疏注意力算法与分层KV存储相结合,通过优化GPU和CPU内存之间的KV缓存管理来提高吞吐量并减少首次令牌生成时间。此外,LayerB…
-
AWS and NVIDIA Parakeet-TDT offer cost-effective multilingual audio transcription
NVIDIA has released Parakeet-TDT-0.6B-v3, an open-source multilingual audio transcription model capable of processing 25 European languages. The model, deployed on AWS Batch with GPU instances, achieves high inference s…
-
NVIDIA Nemotron Diffusion模型提供6.4倍更快的AI推理速度
NVIDIA发布了Nemotron-Labs Diffusion系列语言模型,提供3B、8B和14B参数规模。这些模型在一个架构内独特地支持自回归(AR)、扩散和自推测解码模式,实现了显著的速度提升。通过并行生成token块而非顺序生成,Nemotron-Labs Diffusion的吞吐量比传统AR模型高出6.4倍,同时保持或提高了准确性。这一突破解决了AR模型固有的内存带宽瓶颈,使其在生产部署和代理系统中更高效。