graphics processing unit
PulseAugur coverage of graphics processing unit — every cluster mentioning graphics processing unit across labs, papers, and developer communities, ranked by signal.
- competes with central processing unit 70%
- used by H.1000 Gnome 70%
- used by Vulkan 70%
- used by Dohuk Polytechnic University 70%
- uses data processing unit 70%
- competes with Cerebras Systems 70%
- competes with application-specific integrated circuit 70%
- competes with Tensor Processing Unit 60%
- uses central processing unit 50%
- instance of Green Party of the United States 50%
- used by central processing unit 50%
- competes with data processing unit 50%
18 天有情绪数据
-
新的架构和框架针对长上下文的LLM服务瓶颈
研究人员开发了新的架构和技术,以解决服务具有长上下文的大型语言模型(LLMs)时日益增长的延迟和能耗挑战。一种名为AMMA的方法提出了一种以内存为中心的多芯片设计,用HBM-PNM立方体取代GPU计算芯片,以提高内存带宽,与NVIDIA H100相比,在延迟和能耗方面实现了显著降低。另一个框架SPIN将稀疏注意力算法与分层KV存储相结合,通过优化GPU和CPU内存之间的KV缓存管理来提高吞吐量并减少首次令牌生成时间。此外,LayerB…
-
Datadog 推出 GPU 监控功能,助力企业遏制飙升的 AI 基础设施成本
Datadog 在其可观测性平台中引入了新的 GPU 监控功能,以帮助组织管理与 AI 工作负载相关的不断上涨的成本。该工具旨在提供跨云和本地环境的 GPU 利用率、性能和支出的可见性。通过将基础设施的健康状况和成本直接与使用资源的团队联系起来,Datadog 寻求实现更快的故障排除并识别节省成本的领域。
-
AI data centers face cooling crisis as power density outpaces infrastructure
The escalating power demands of AI workloads are pushing data center cooling systems to their limits, transforming thermal management from a design consideration into a critical deployment challenge. Traditional air-coo…
-
光子处理器为深度学习计算提供节能替代方案
深度学习的未来可能涉及使用光而非电子进行计算的光子处理器。这种方法旨在降低当前神经网络的巨大能源需求,而当前神经网络依赖于GPU和TPU等电子硬件。光子处理器可以加速矩阵运算,这是深度学习计算强度的核心。
-
微软和谷歌为应对不稳定的AI需求调整数据中心规划
微软和谷歌正在调整其数据中心规划策略,以适应人工智能工作负载不可预测的性质。两家公司正从固定路线图转向持续的再平衡,利用基于范围的预测,并尽可能推迟关键基础设施决策。这一转变是由人工智能(特别是像Microsoft Copilot这样的模型)为传统计算、存储和网络比例带来的根本性变化所驱动的,需要更具可替代性和模块化的数据中心设计。
-
AI芯片制造商Cerebras提交IPO申请,目标筹集35亿美元,估值266亿美元
据报道,AI芯片制造商Cerebras Systems正计划于2026年进行一次重大的首次公开募股(IPO)。该公司旨在通过以每股115-125美元的价格区间出售股票来筹集约35亿美元,公司估值将达到266亿美元。Cerebras凭借其晶圆级技术在竞争中脱颖而出,该公司声称与传统的基于GPU的解决方案相比,其技术在AI推理方面提供了卓越的性能和能效。
-
Perplexity CEO notes Anthropic's multi-accelerator model training
Aravind Srinivas, CEO of Perplexity, shared a quote from Gavin Baker regarding the adaptability of AI models across different hardware accelerators. Baker noted that while Anthropic's models were historically run on var…
-
Anyscale 为 vLLM 中的 MoE 模型增加了 Ray Serve 容错功能
Anyscale 为其 vLLM 服务引擎引入了新的容错功能,该引擎与 Ray Serve 集成。此增强功能专门解决了部署大型专家混合(MoE)模型的挑战,这些模型被分片到多个 GPU 上。当一个数据并行(DP)组中的单个 GPU 发生故障时,新系统现在可以识别并重新启动构成该 DP 组的整个 GPU 组,从而防止整个部署变得不可用。
-
Together AI 内核团队使用 FlashAttention 优化 GPU
Together AI 内核团队,包括研究员 Dan Fu 和 Tri Dao,开发了 FlashAttention,这是一个显著优化 AI 模型 GPU 性能的软件层。这项突破通过将数据库系统原理应用于 GPU 内存移动,实现了 2-3 倍的速度提升,挑战了 transformer attention 已经完全优化的观念。该团队后续的工作,包括 ThunderKittens 库,旨在加速 NVIDIA Blackwell GPU 等…
-
Tower Semiconductor and Scintil Photonics debut single-chip laser for AI data center optics
Tower Semiconductor and Scintil Photonics have developed the first single-chip DWDM light engine designed for AI data centers. This technology uses dense wavelength division multiplexing to send multiple optical signals…
-
Pinterest 详解其 GPU 驱动广告排名系统
Pinterest 详细介绍了其 GPU 驱动的广告排名系统,旨在提升用户体验和广告相关性。该系统利用 GPU 高效处理海量数据,从而实现更快、更准确的广告选择。这种方法对于维持用户参与度和驱动平台广告收入至关重要。
-
Pinterest details its GPU-powered ad ranking system
Pinterest has detailed its GPU-accelerated system for ranking advertisements, a crucial component for its e-commerce platform. This system leverages GPUs to efficiently process and rank a vast number of ads, aiming to i…
-
多节点训练赋能跨 GPU 集群扩展基础模型
训练大型基础模型需要将工作负载分布到多台互联机器上的众多 GPU 上,这一过程称为多节点训练。这种方法对于处理参数量达数十亿甚至数万亿、超出单台服务器内存容量且否则需要数月才能完成训练的模型至关重要。有效得多节点训练依赖于复杂的并行策略、高速网络互连和强大的容错机制,以确保计算的高效性和进展。
-
Richard C++ CNN 利用 Vulkan 进行 GPU 加速,无需 ML 库
Richard 是一款新推出的命令行应用程序,用于使用神经网络执行分类,完全用 C++ 和 Vulkan 编写。它支持密集层和卷积层,并通过 Vulkan 计算着色器实现 GPU 加速。该项目还包括用于性能分析的分析工具。