PulseAugur
实时 06:35:41
实体 self-speculation decoding

self-speculation decoding

PulseAugur coverage of self-speculation decoding — every cluster mentioning self-speculation decoding across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. FRONTIER RELEASE · CL_40513 ·

    NVIDIA Nemotron Diffusion模型提供6.4倍更快的AI推理速度

    NVIDIA发布了Nemotron-Labs Diffusion系列语言模型,提供3B、8B和14B参数规模。这些模型在一个架构内独特地支持自回归(AR)、扩散和自推测解码模式,实现了显著的速度提升。通过并行生成token块而非顺序生成,Nemotron-Labs Diffusion的吞吐量比传统AR模型高出6.4倍,同时保持或提高了准确性。这一突破解决了AR模型固有的内存带宽瓶颈,使其在生产部署和代理系统中更高效。