实体 cuDNN: Efficient Primitives for Deep Learning

cuDNN: Efficient Primitives for Deep Learning

PulseAugur coverage of cuDNN: Efficient Primitives for Deep Learning — every cluster mentioning cuDNN: Efficient Primitives for Deep Learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_89187 · Jun 13 · 14:29

中文解析器DeepDoc、MinerU在日本RAG表现上出现交叉

对两个中文开源文档解析器DeepDoc和MinerU在日本RAG系统中的比较分析显示，基于所使用的检索方法，它们的性能出现了交叉。DeepDoc在使用BM25检索时表现出更优异的结果，而MinerU在使用密集检索时表现出色。这表明最佳解析器的选择取决于具体的检索策略，而不是某一个解析器普遍更好。
RESEARCH · CL_79613 · Jun 8 · 10:17

新方法利用世界模型加速张量程序优化

研究人员开发了一种新颖的方法来优化机器学习系统的张量程序，将调度评估建模为潜在动态。这种受世界模型启发的方法使用轻量级转换模型在连续潜在空间中预测程序状态，避免了昂贵的代码变异和编码。当在 TVM AutoScheduler 中实现时，与现有方法相比，它显著降低了 GPU 和 CPU 上的子图延迟，并加速了全模型推理，所有这些都在减少的测量预算内完成。
RESEARCH · CL_44358 · May 22 · 15:59

Together AI发布FlashAttention-3和-4，加速大语言模型处理

Together AI发布了FlashAttention-3和FlashAttention-4，这是其用于大语言模型的GPU加速注意力机制的重大升级。FlashAttention-3专为Hopper GPU设计，通过利用张量核心（Tensor Cores）和张量内存加速器（Tensor Memory Accelerator）等新硬件特性并支持FP8精度，实现了高达75%的利用率和比前代产品快1.5-2倍的速度。FlashAttenti…
RESEARCH · CL_18472 · May 6 · 04:00

NVIDIA 在 12 年后开源 cuDNN 内核，包括 MoE 和稀疏注意力

NVIDIA 已开源其 cuDNN 库的部分内容，这是在闭源 12 年后的一项重大举措。此次发布包括 20 多个专家混合 (MoE) 内核和 NSA 稀疏注意力内核。这些内核的代码库大部分是用 Python CuTe-DSL 编写的，现已提供公开文档。

中文解析器DeepDoc、MinerU在日本RAG表现上出现交叉

新方法利用世界模型加速张量程序优化

Together AI发布FlashAttention-3和-4，加速大语言模型处理

NVIDIA 在 12 年后开源 cuDNN 内核，包括 MoE 和稀疏注意力