Together AI 已开源 OSCAR,这是一个用于 2 位 KV 缓存量化的新系统。该技术旨在提高大型语言模型(尤其是具有长上下文窗口的模型)的服务效率。此项开发紧随 turboquant 等量化方法的最新进展,表明 LLM 优化正在快速发展。 AI
影响 提高 LLM 服务效率,可能支持更长的上下文窗口和更快的推理。
排序理由 LLM 优化新技术的开源发布。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →