研究人员开发了 Qrita,这是一种旨在提高大型语言模型中 Top-k 和 Top-p 采样效率的新型算法。通过采用基于高斯的 sigma 截断和四元枢轴搜索,Qrita 在确保确定性输出的同时,显著减小了搜索空间和内存使用量。这种新方法已被集成到 vLLM 中作为默认采样器,与现有的高性能 LLM 执行引擎相比,服务吞吐量提高了 1.4 倍。 AI
影响 提高了 LLM 推理速度并减小了内存占用,可能降低运营成本。
排序理由 该集群包含一篇详细介绍 LLM 采样新算法的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →