实体 SGLang

SGLang

PulseAugur coverage of SGLang — every cluster mentioning SGLang across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

131

90 天内 131

发布 · 30天

90 天内 0

论文 · 30天

90 天内 25

层级分布 · 90 天

frontier release 14
significant 8
research 27
tool 75
commentary 6
meme 1

主题

模型发布 87
产品 79
基础设施 64
论文 25
其他 5
安全 2
融资 1

关系

partners with Musa 80%
used by vLLM 70%
used by transformers 70%
used by llama.cpp 70%
used by Docker 70%
used by llama-cpp-python 70%
used by graphics processing unit 70%
used by Ollama 70%
used by Unsloth 70%
used by speculative decoding 70%
competes with TensorRT-LLM 70%
used by Musa 60%

时间线

2026-06-20 product_launch SGLang and MUSA merge backends, enabling native GPU support for China's open-source AI ecosystem. 来源
2026-01-09 product_launch SGLang released version 0.3.1 of its model gateway, featuring performance and memory improvements. 来源

情绪 · 30 天

26 天有情绪数据

最近 · 第 1/7 页 · 共 131 条

TOOL · CL_134332 · Jul 9 · 16:38

AWS SageMaker HyperPod 通过新功能提升企业 AI 推理能力

Amazon SageMaker HyperPod 推出了新功能，以增强生成式 AI 工作负载的企业推理能力。这些更新包括在推理管道的各个节点改进数据捕获能力，提供更强的可观测性和可审计性。该平台现在支持直接从 Hugging Face 等社区中心进行部署，并内置了受控访问和版本固定功能。通过 NVMe 存储降低延迟以提升性能，并通过细粒度的 IAM 权限和自动 DNS 管理增强安全性。
SIGNIFICANT · CL_134309 · Jul 9 · 16:01

OpenBMB 发布 MiniCPM5-1B，一款适用于旧款手机的高效边缘 AI 模型

清华大学的 OpenBMB 实验室发布了 MiniCPM5-1B，这是一款专为在旧设备上高效运行而设计的新型边缘 AI 模型。这个拥有 10.8 亿参数的模型具有 131K 的上下文窗口，并通过 SGLang 支持原生工具调用。它在其所属类别的人工分析智能指数中取得了高排名，其推理版本排名第二，非推理版本在开源模型中排名第一。
SIGNIFICANT · CL_134288 · Jul 8 · 13:15

Robbyant发布LingBot-Video，一款开源MoE视频生成模型

Robbyant发布了LingBot-Video，这是一款开源的混合专家（MoE）视频生成模型，专为具身智能设计。该模型在包含网络视频和具身数据的海量数据集上进行训练，采用高效的MoE架构，推理速度比以往模型快约三倍。LingBot-Video集成了多奖励系统，优先考虑输出的美学质量、物理合理性和任务完成度。
TOOL · CL_132145 · Jul 8 · 11:02

DeepSeek V4 Flash with DSpark 相比 EAGLE 显示出显著的速度提升

一位 Reddit 用户分享了他们使用 SGLang 通过 DSpark 部署 DeepSeek V4 Flash 模型在 HGX-H200 系统上的经验。他们将 DSpark 的性能与 EAGLE 进行了比较，发现 DSpark 的速度明显更快，尤其是在更高的批次大小下。基准测试表明，DSpark 能够在每个步骤中生成更多的 token，从而在接受率略有下降的情况下实现显著的吞吐量提升。
COMMENTARY · CL_131921 · Jul 8 · 09:00

SemiAnalysis 讨论 DeepSeek V4、华为 Ascend NPU 和 LLM 框架竞争

SemiAnalysis 发布了一期节目，讨论了 DeepSeek V4 模型和华为 Ascend NPU 的性能。该节目题为“第 17 集 - DeepSeek V4 和华为 Ascend NPU 性能 (InferenceX)”，由 @noslawextratost 发表见解。此外，讨论还涉及 vLLM 和 SGLang 之间的竞争格局，强调了竞争如何促进该领域的有益进步。
TOOL · CL_131919 · Jul 8 · 08:00

法国初创公司 ZML 发布免费 AI 推理软件，支持多种芯片 · 追踪 2 个来源

法国 AI 初创公司 ZML 推出了 ZML/LLMD，这是一款旨在优化多种硬件（包括来自 Nvidia、AMD、Google、Apple 和 Intel 的芯片）上 AI 推理速度的新软件。该工具旨在打破供应商锁定，并通过实现对不同芯片架构的高效利用来降低企业的 AI 相关成本。在 Yann LeCun 和 2000 万美元融资的支持下，ZML 最初免费提供该软件，以评估使用情况和市场影响。
TOOL · CL_130815 · Jul 7 · 21:00

NVIDIA、SGLang、RadixArk 实现 3.7 倍更快的 AI 交互速度

SemiAnalysis 强调了 NVIDIA、SGLang 和 RadixArk 的性能，指出他们的系统与 B300 基准相比，实现了高达 3.7 倍的更快的交互速度。这一进展表明在 AI 硬件和软件优化方面取得了重大进展。
RESEARCH · CL_133174 · Jul 7 · 19:48

Weaver 适配器将自回归语言模型速度提升 4.37 倍

研究人员推出了一种新颖的自回归适配器 Weaver，旨在提高语言模型中推测性解码的效率。Weaver 从因子化起草器的 top-K 边际量构建提议树，在无需进行全词汇量投影的情况下恢复了 token 之间的条件依赖性。这种方法结合 SGLang 中针对具有 Gated Delta Net 层的模型的优化 CUDA 核，实现了比标准自回归解码快 4.37 倍的速度，并比 DFlash 基线快 24.7%。该研究已发布在 arXiv 上。
COMMENTARY · CL_130187 · Jul 7 · 13:01

自托管 LLM 将成本转移到持续评估上

自托管开源大型语言模型将主要成本从 API 使用转移到持续的模型评估工作。量化是减少模型本地使用大小的常用技术，但可能会在推理和长上下文检索等关键任务上微妙地降低性能。此外，推理引擎（如 vLLM 或 TGI）的选择也会以不易察觉的方式改变模型行为。与维护持续评估流程的托管模型提供商不同，大多数自托管团队只测试模型一次，这可能导致性能随着时间的推移而下降而未被发现。
SIGNIFICANT · CL_129683 · Jul 7 · 05:59

Tencent 发布 Hy3，一个开放的 295B MoE 模型，支持 256K 上下文

Tencent 发布了 Hy3，一个开源的 2950 亿参数专家混合（MoE）模型，专为复杂推理、代理工作流和长上下文任务而设计。该模型每个 token 只激活 210 亿参数，在保持效率的同时支持 256K 的上下文窗口。Hy3 在编码、STEM 和推理任务等各种基准测试中表现出色，并经过特定训练以提高工具调用中的可靠性、减少幻觉并增强多轮意图跟踪。该模型可通过兼容 OpenAI 的 API 访问，并提供 `reasoning_ef…
RESEARCH · CL_127431 · Jul 6 · 00:00

新的投机解码方法将大语言模型推理速度提升高达85% · 跟踪4个来源

研究人员开发了DSpark，一个旨在加速大语言模型（LLM）推理的新型投机解码框架。DSpark结合了用于改进草稿质量的半自回归架构和用于优化系统效率的置信度调度验证。在DeepSeek-V4服务系统中实现时，DSpark与MTP-1基线相比，每用户生成速度提高了60-85%，显著提高了吞吐量，并实现了以前无法达到的性能级别。另一个框架AdaptiveSD通过提供运行时自适应和多策略编排，解决了CPU受限的大语言模型推理问题，确保在各…
TOOL · CL_126783 · Jul 5 · 22:36

GLM 5.2 在 Terminal-Bench 2.1 上以 FP8 精度达到 79.8%

一位 Reddit 用户分享了 GLM 5.2 模型的基准测试结果，在 Terminal-Bench 2.1 测试中取得了 79.8% 的分数。用户指定该分数是在使用 H200 硬件和 sglang 的设置下，同时对模型权重和键值缓存使用 FP8 精度实现的。基准测试包含 89 个任务，其中 71 个通过，17 个失败，1 个任务超时。
RESEARCH · CL_126629 · Jul 5 · 17:14

SupraLabs发布小型Supra-Router-51M提示路由模型

SupraLabs发布了Supra-Router-51M，这是一个紧凑型语言模型，旨在高效地在多模型AI生态系统中进行提示路由。该模型仅有5170万个参数，能够判断用户的请求是应由本地边缘模型处理，还是发送到更强大的云端系统。它在SupraLabs/Prompt-Routing-Dataset上进行了微调，并利用多任务序列生成来分析提示属性，然后进行路由。
TOOL · CL_125058 · Jul 3 · 21:55

AliesTaha 发布基于 Qwen3 的对话式大语言模型 fable-traces

AliesTaha/fable-traces 模型，一个基于 Qwen/Qwen3-4B-Instruct-2507 的精简指令微调语言模型，已在 Hugging Face 上发布。该模型针对简洁的对话式响应进行了优化，可以在单台中端 GPU 上运行。提供了将 fable-traces 与 Transformers 等流行库以及 vLLM 和 SGLang 等推理提供商集成的说明，并支持通过 Docker 进行部署。
SIGNIFICANT · CL_124570 · Jul 3 · 21:49

GLM5.2 部署在 AMD MI355X 上以实现更便宜的推理 · 已追踪 5 个来源

Wafer.ai 已成功将 GLM5.2 部署在 AMD MI355X 硬件上，实现了 2626 tokens/秒/节点的吞吐量和 213 tokens/秒的单流推理速度。此次部署具有成本优势，MI355X GPU 的成本大约比 NVIDIA 的 Blackwell B300 低 2.75 倍。优化工作包括使用 AMD Quark 将 GLM5.2 量化到 MXFP4，并采用 sglang 推理框架，同时对 ROCm 的投机解码进…
COMMENTARY · CL_123977 · Jul 3 · 00:00

Meta 的 Watermelon 模型在基准测试中可媲美 GPT-5.5；Anthropic 考虑三星芯片 · 跟踪 1 个来源

Meta 的新 AI 模型（代号 Watermelon）据报道在关键基准测试中可媲美 OpenAI 的 GPT-5.5，但仍处于训练阶段。另外，Anthropic 正在探索与三星的合作，以定制开发 AI 芯片，实现硬件战略多元化。该集群还强调了在软件开发和研究领域中，代理工作流的进展，出现了像 Devin Security Swarm 用于漏洞检测和 Laguna XS 2.1 用于编码任务的新工具。
SIGNIFICANT · CL_127200 · Jul 2 · 13:23

腾讯发布 Hy3，一个 295B 参数的 MoE 模型

腾讯发布了 Hy3，一个由其 Hy Team 开发的拥有 2950 亿参数的混合专家（Mixture-of-Experts）模型。该模型拥有 210 亿激活参数，在性能上优于同等规模的模型，并可与更大的开源模型相媲美。Hy3 提供 256K 的上下文长度，并于 7 月 21 日前在 OpenRouter 上免费提供。
TOOL · CL_128133 · Jul 2 · 02:40

Hugging Face 发布 Grug-12B 模型以实现紧凑推理

kai-os/Grug-12B 模型，Google Gemma-4-12B-it 的微调版本，已在 Hugging Face 上发布。该模型专为紧凑推理而设计，旨在缩短和精简推理过程，同时保留约束和决策等关键信息。它使用 QLoRA 进行训练并合并到基础模型中，目标是在不牺牲答案质量的情况下减少推理 token 使用量。发布内容包括使用 Grug-12B 与各种库和推理提供商（如 Transformers、vLLM 和 SGLang）…
TOOL · CL_129928 · Jul 1 · 01:14

bottlecapai 在 Hugging Face 上发布多模态 Qwen3.6-27B 模型

基于 Qwen3.6-27B 的 bottlecapai/ThinkingCap-Qwen3.6-27B 模型现已在 Hugging Face 上可用。它提供多模态能力，允许用户处理文本和图像。该模型可以与各种库和推理提供商集成，包括 Transformers、vLLM、SGLang 和 llama.cpp，并为每种提供商提供了详细说明。
TOOL · CL_120339 · Jul 1 · 00:00

新的MRP技术提高了语言模型的速度和准确性

来自Modal Research和纽约大学上海分校HeavyBall Research的研究人员开发了一种名为多标记残差预测（MRP）的新技术，该技术提高了语言模型的速度和准确性。MRP通过训练一个小模块来预测扩散语言模型中相邻去噪步骤之间的残差差异，而不是预测整个分布。这种方法在静态模式下可以实现高达1.56倍的吞吐量，并且在动态模式下可以恢复在激进的低阈值解码设置中丢失的重要准确性点，同时几乎没有质量损失。

AWS SageMaker HyperPod 通过新功能提升企业 AI 推理能力

OpenBMB 发布 MiniCPM5-1B，一款适用于旧款手机的高效边缘 AI 模型

Robbyant发布LingBot-Video，一款开源MoE视频生成模型

DeepSeek V4 Flash with DSpark 相比 EAGLE 显示出显著的速度提升

SemiAnalysis 讨论 DeepSeek V4、华为 Ascend NPU 和 LLM 框架竞争

法国初创公司 ZML 发布免费 AI 推理软件，支持多种芯片 · 追踪 2 个来源

NVIDIA、SGLang、RadixArk 实现 3.7 倍更快的 AI 交互速度

Weaver 适配器将自回归语言模型速度提升 4.37 倍

自托管 LLM 将成本转移到持续评估上

Tencent 发布 Hy3，一个开放的 295B MoE 模型，支持 256K 上下文

新的投机解码方法将大语言模型推理速度提升高达85% · 跟踪4个来源

GLM 5.2 在 Terminal-Bench 2.1 上以 FP8 精度达到 79.8%

SupraLabs发布小型Supra-Router-51M提示路由模型

AliesTaha 发布基于 Qwen3 的对话式大语言模型 fable-traces

GLM5.2 部署在 AMD MI355X 上以实现更便宜的推理 · 已追踪 5 个来源

Meta 的 Watermelon 模型在基准测试中可媲美 GPT-5.5；Anthropic 考虑三星芯片 · 跟踪 1 个来源

腾讯发布 Hy3，一个 295B 参数的 MoE 模型

Hugging Face 发布 Grug-12B 模型以实现紧凑推理

bottlecapai 在 Hugging Face 上发布多模态 Qwen3.6-27B 模型

新的MRP技术提高了语言模型的速度和准确性