Together AI 发布了 OSCAR,这是一种开源的 2 位 KV 缓存方法,可显著减少内存使用量。与之前在长上下文下失败的 2 位方法不同,OSCAR 在高达 128K token 的情况下仍能保持性能。这项创新使用了 Qwen3-8B 模型进行演示,显示 KV 缓存内存减少了 8 倍。 AI
影响 降低了大型语言模型的内存需求,可能支持更长的上下文窗口和更高效的部署。
排序理由 该集群描述了一种改进 AI 模型效率的新型开源技术方法,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →