Triton · PulseAugur

HyperVAttention 提升视频扩散 Transformer 效率

研究人员开发了 HyperVAttention (HVA)，一个旨在提高视频扩散 Transformer (VDiTs) 生成更长视频效率的新框架。HVA 通过采用时空聚类来解决自注意力机制的二次复杂度问题。该框架通过 3D 局部窗口聚类和增量更新 token 聚类的混合方法减少了聚类开销。此外，它通过硬件感知聚类合并提高了 GPU 利用率，从而显著降低了延迟并提高了视频生成保真度。

RESEARCH · CL_127537 · Jul 6 · 12:31

AI 模型 Fable 编写更快的 GPU 内核并自动化在线工作 · 跟踪 2 个来源

一款名为 Fable 的新 AI 模型已展示出编写高效 GPU 内核的能力，在 Nvidia RTX Pro 6000 Blackwell Workstation Edition 上实现了比优化后的 PyTorch 基线快 18.71 倍的速度。在 KernelBench-Mega 基准测试中，此性能超越了 Claude-Opus-4.8、GLM-5.2 和 GPT-5.5 等其他领先模型，表明 AI 在研发自动化方面取得了进展。此外…

COMMENTARY · CL_121243 · Jul 2 · 01:53

vLLM、TGI 和 Triton：应对机器学习推理服务的挑战

当前的机器学习推理服务格局涉及多种关键技术，每种技术都解决了挑战的不同方面。vLLM 在最大化吞吐量方面表现出色，Text Generation Inference (TGI) 专为 HuggingFace 生态系统量身定制，而 Triton 提供多框架支持。主要瓶颈被确定不在模型本身，而在调度层，连续批处理现在被认为是标准要求。

TOOL · CL_121001 · Jul 2 · 00:45

Triton 的 Mac 支持正在开发中，拓宽优化选项

Triton 对 macOS 的支持正在开发中，并且已共享 Triton 扩展存储库的拉取请求。将 Triton 集成到目前在 Apple Silicon 上由 MLX/llama.cpp 主导的开发环境中，可以极大地拓宽本地 GPU/Metal 内核开发和优化的选项。

TOOL · CL_111511 · Jun 24 · 23:03

TileMaxSim内核将GPU检索模型速度提升220倍

研究人员开发了TileMaxSim，这是一种新的面向IO的GPU内核，旨在显著加速多向量检索模型（如ColBERT）中使用的MaxSim评分过程。现有实现效率低下，仅利用了可用GPU带宽的一小部分。TileMaxSim通过采用多查询SRAM分块、维度分块和融合乘积量化评分来解决此问题，在NVIDIA H100 GPU上实现了高达80.2%的峰值HBM带宽。这带来了显著的速度提升，能够实现每秒对8200万份文档进行评分，并大大降低了检索任务的延迟。

RESEARCH · CL_104433 · Jun 22 · 22:49

Apache TVM 推出 TIRx 编译器，用于演进的 ML 内核和硬件

Apache TVM 推出了 TIRx，这是一个开源编译器堆栈，专为机器学习内核和不断发展的硬件而设计。这个新系统支持硬件原生 DSL，并可编译到 GPU 和专用 AI 加速器，同时注重适应未来硬件代际的灵活性。TIRx 旨在为程序员和机器之间提供一个灵活的边界，使专家能够控制底层操作，同时也支持常用任务的可重用块基元。

SIGNIFICANT · CL_96603 · Jun 17 · 10:16

算能（Sunmmio）3D TokenPU芯片流片，提升中国AI算力

算能（Sunmmio）已正式流片其为大模型推理设计的3D TokenPU芯片A4E。这标志着中国国产AI芯片产业迈出了重要一步，该芯片采用了3D混合堆叠架构，以解决大模型推理中的内存、计算和通信等关键瓶颈。该芯片旨在为国内大模型生态系统提供自主可控、高性能、高性价比的算力解决方案。

TOOL · CL_96296 · Jun 17 · 07:14

AMD 用户寻求将 Triton/Sage Attention 集成到 ComfyUI 中

一位用户正在寻求帮助，希望将 Triton 和 Sage Attention 集成到 Windows 11 系统上的 ComfyUI 中，该系统配备了 AMD Radeon 8050S GPU。他们遇到了与找不到 'triton' 模块相关的错误，这阻止了优化注意力内核的初始化，并迫使系统回退到较慢的 PyTorch 注意力。尽管拥有 16GB VRAM，但这种回退会导致在较大的视频工作流程中出现 VRAM 内存不足的错误。用户正在寻…

RESEARCH · CL_93361 · Jun 16 · 04:00

LLM 在 GPU 内核生成方面遇到困难；新研究提供解决方案

两篇新研究论文探讨了使用大型语言模型 (LLM) 生成正确 GPU 内核的挑战。第一篇论文《LLM 生成的 GPU 内核中的正确性幻觉》指出，现有基准测试可能由于固定形状、小样本检查而错误地将有缺陷的内核认证为正确。它提出了一种具有高精度 CPU 引用的模糊测试方法，以在各种 GPU 架构中捕获这些“LLM 式转录错误”。第二篇论文《从 Token 到区域：面向 GPU 内核生成的 CUDA 敏感指令调优》介绍了一种名为 CuSeT …

RESEARCH · CL_93380 · Jun 15 · 09:58

daVinci-kernel 使用强化学习通过演进的技能库优化 GPU 内核

研究人员开发了 daVinci-kernel，一个旨在优化 GPU 内核的新型强化学习框架。该系统共同演进技能选择、摘要和利用，采用三个共享单一 LLM 主干的智能体。该框架旨在通过动态构建和验证可重用技能库来提高执行效率，并在 KernelBench 基准测试中展示了显著的性能提升。

TOOL · CL_91640 · Jun 15 · 09:16

Flash-KMeans 加速 GPU k-means 聚类超 200 倍

来自加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员开发了 Flash-KMeans，这是一个开源库，可显著加速现代 AI 管道中的 k-means 聚类算法。通过优化 GPU 上的数据移动和重构算法的阶段，Flash-KMeans 实现了显著的加速，据报道在 NVIDIA H200 GPU 上比 FAISS 快 200 多倍，比 NVIDIA cuML 快 33 倍。该库在数学上与标准 k-means 保持一致，侧重于 IO 效…

RESEARCH · CL_81952 · Jun 9 · 00:00

Flash-GMM 内核将 GMM 聚类速度提升 20 倍，支持更大规模数据集

研究人员开发了 Flash-GMM，这是一种专为 GPU 上高斯混合模型 (GMM) 高效计算而设计的新型融合 Triton 内核。该内核通过避免完全物化责任矩阵来显著降低内存需求，从而实现了 20 倍的速度提升，并使得在单个设备上处理比以往大 100 倍的数据集成为可能。Flash-GMM 已集成到近似最近邻搜索中，为 k-means 聚类提供了一种可行的替代方案，并提高了召回率。

RESEARCH · CL_72140 · Jun 5 · 01:58

“构建你自己的 LLM”研讨会已在 YouTube 发布

现已推出面向个人开发者的 YouTube 研讨会，旨在帮助他们在没有先验数学或机器学习经验的情况下构建自己的大型语言模型。该研讨会涵盖了神经网络和 Transformer 架构等基础概念，最终目标是创建一个 GPT-2 风格的模型。它包含了从分词到注意力机制的各种组件的详细解释和实际代码示例。

RESEARCH · CL_63956 · Jun 1 · 15:00

Majestic Labs发布Prometheus服务器，配备128TB内存

AI初创公司Majestic Labs正在开发一款名为Prometheus的新服务器，旨在通过大幅增加内存容量来克服当前AI硬件的限制。该服务器将配备高达128TB的内存，远超现有解决方案，并采用以DRAM为中心的架构和专有接口。这种方法旨在通过提供比计算能力更高的内存带宽和容量，来解决阻碍大型语言模型（LLM）性能的“内存墙”问题，尤其对大型模型而言。

TOOL · CL_54717 · May 27 · 12:58

Triton MoE kernel 在 AMD 和 NVIDIA 上实现高性能

一个新实现的、完全用 Triton 编写的 Fused Mixture-of-Experts (MoE) dispatch kernel，其性能达到了 Stanford 的 Megablocks 库的 89-131%。该 kernel 尤其值得注意的是，无需任何代码修改即可在 AMD MI300X 硬件上运行。主要优化在于融合了 gate 和 projection 操作，通过将中间结果保留在寄存器中，显著减少了全局内存流量。

TOOL · CL_51969 · May 26 · 08:50

TileLang通过Python接口简化GPU内核编写

一种名为TileLang的新编程语言旨在通过提供介于Triton等高级框架和CUTLASS等底层控制之间的中间层来简化GPU内核开发。TileLang允许开发人员编写Python代码，同时显式定义数据在内存层次结构和流水线阶段的放置。然后，编译器会推断线程映射并优化布局，从而降低了通常与手动线程管理相关的复杂性。

RESEARCH · CL_44358 · May 22 · 15:59

Together AI发布FlashAttention-3和-4，加速大语言模型处理

Together AI发布了FlashAttention-3和FlashAttention-4，这是其用于大语言模型的GPU加速注意力机制的重大升级。FlashAttention-3专为Hopper GPU设计，通过利用张量核心（Tensor Cores）和张量内存加速器（Tensor Memory Accelerator）等新硬件特性并支持FP8精度，实现了高达75%的利用率和比前代产品快1.5-2倍的速度。FlashAttenti…

RESEARCH · CL_43418 · May 22 · 05:38

斯坦福大学的ThunderKittens DSL优化AI内核性能

一篇新文章详细介绍了ThunderKittens，这是斯坦福大学Hazy Research Lab开发的一种紧凑型领域特定语言（DSL），用于创建高性能AI内核。该DSL旨在通过抽象重复的GPU编程任务（如切片布局和内存分配）来平衡研究生产力和硬件效率。这使得开发人员能够密切关注数据移动和调度，同时仍能优化现代AI工作负载在NVIDIA的Hopper和Blackwell等硬件上的性能。

RESEARCH · CL_31391 · May 14 · 09:51

摩尔线程联合开源AI开发者社区，共建MUSA GPU生态

中国GPU制造商摩尔线程召集了一场关于将其MUSA架构与SGLang等关键开源大模型推理框架集成的交流会。此次活动汇集了SGLang、TileLang和Mooncake等项目的核心开发者，标志着国内GPU行业正从硬件规格转向生态系统开发。摩尔线程旨在使其GPU无缝融入大模型部署的主流开源工程流程，强调与开发者的兼容性和易集成性。

RESEARCH · CL_30131 · May 13 · 15:24

新框架优化多GPU系统上的LLM推理能耗

研究人员开发了EnergyLens，一个旨在优化大型语言模型（LLM）在多GPU系统上推理过程中的能耗的框架。该工具解决了预测和减少LLM能耗的挑战，这对于可持续性和数据中心的高效运营至关重要。EnergyLens利用一个基于einsum的接口和一个经验驱动的通信能耗模型来捕捉复杂的LLM规范和多GPU行为，实现了低预测误差，并揭示了不同配置之间显著的能耗差异。