English(EN) Together AI's OSCAR Killed KV Cache Memory 8x — The First 2-Bit That Doesn't Collapse at 128K

Together AI 的 OSCAR 将 KV 缓存内存减少了 8 倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 05:43

Together AI 发布了 OSCAR，这是一种开源的 2 位 KV 缓存方法，可显著减少内存使用量。与之前在长上下文下失败的 2 位方法不同，OSCAR 在高达 128K token 的情况下仍能保持性能。这项创新使用了 Qwen3-8B 模型进行演示，显示 KV 缓存内存减少了 8 倍。 AI

影响降低了大型语言模型的内存需求，可能支持更长的上下文窗口和更高效的部署。

排序理由该集群描述了一种改进 AI 模型效率的新型开源技术方法，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 Towards AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Towards AI TIER_1 English(EN) · Chew Loong Nian - AI ENGINEER · 2026-05-27 05:43

Together AI's OSCAR Killed KV Cache Memory 8x — The First 2-Bit That Doesn't Collapse at 128K

<div class="medium-feed-item"><p class="medium-feed-snippet">Every 2-bit KV cache method I tried in 2025 collapsed past 32K context. Together AI’s OSCAR, open-sourced on May 25, 2026, kept Qwen3–8B…</p><p class="medium-feed-link"><a href="https://pub.towardsa…

报道来源 [1]

Together AI's OSCAR Killed KV Cache Memory 8x — The First 2-Bit That Doesn't Collapse at 128K

相关实体

相关话题