研究人员开发了 ReSET,这是一种在 NVFP4 低精度推理中使用时,提高大型推理模型 (LRM) 准确性和效率的新方法。ReSET 通过采用步感知温度缩放来解决量化引起的准确性下降问题,该缩放根据 token 和步级别的熵调整解码温度。此外,还引入了一个新的 CUDA 核心内核来加速低延迟的自回归解码,与现有方法相比实现了显著的加速。 AI
影响 提高了 AI 模型推理的效率和准确性,可能降低复杂推理任务的成本。
排序理由 这是一篇详细介绍改进 AI 模型推理新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →