实体
Cutlass
Cutlass
PulseAugur coverage of Cutlass — every cluster mentioning Cutlass across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
CuTeDSL成为LLM推理的新GPU内核路径,挑战CUTLASS
LLM推理的GPU内核工程领域正在发生转变,CuTeDSL正崭露头角,有望成为C++ CuTe/CUTLASS的后继者。这种演变体现在FlashAttention-4和TorchInductor等技术中的行业趋势。对于2026年的开发者来说,选择C++ CUTLASS还是基于Python的CuTeDSL正成为一个关键考量,PyTorch和NVIDIA在其中扮演着重要角色。
-
Moonshot AI open-sources FlashKDA, boosting Kimi Delta Attention 2.5x on H200 GPUs
Moonshot AI has released FlashKDA, an open-source implementation of Kimi Delta Attention. This new kernel achieves up to 2.5 times faster inference speeds on NVIDIA H200 GPUs. It is built using CUTLASS and optimized for…