SGLang 发布了其模型网关 0.3.1 版本,显著提升了性能并减少了内存使用。此次更新引入了感知缓存的路由,速度提升 10-12 倍,内存使用减少 99%,在相同占用空间内可实现 100 倍的缓存条目。此版本还集成了企业级安全功能,如 JWT/OIDC 认证,并增加了对分类工作负载的支持。 AI
影响 增强了大规模多租户 AI 部署的效率和可扩展性。
排序理由 这是一个基础设施工具的软件发布,而不是前沿模型发布或重要的行业事件。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →