vLLM
PulseAugur coverage of vLLM — every cluster mentioning vLLM across labs, papers, and developer communities, ranked by signal.
- used by graphics processing unit 90%
- used by H.1000 Gnome 80%
- used by llama-cpp-python 70%
- used by Fp8 70%
- used by Horizon 2020 70%
- uses Anyscale, Inc. 70%
- competes with Text Generation Inference 60%
- used by Mlx 60%
- uses LM Studio 60%
- affiliated with Anyscale, Inc. 50%
- affiliated with LM Studio 50%
- affiliated with llama-cpp-python 50%
- 2026-05-15 product_launch vLLM released version 0.21.1rc0.
15 天有情绪数据
-
Qwen3.6-35B 模型量化显示 FP8 质量不如 INT8,NVFP4 是谎言
Reddit 的 LocalLLaMA 社区的一位用户分享了关于 Qwen3.6-35B 模型的研究结果,重点关注了 Kullback-Leibler (KLD) 散度指标在 INT8、FP8 和 NVFP4 等不同量化格式下的表现。使用修改后的 VLLM 框架进行的分析表明,FP8 和 NVFP4 格式虽然可能速度更快,但质量可能不如 INT8。用户强调,量化格式的选择应与具体用例相匹配,平衡准确性、速度和 GPU 兼容性。
-
Qwen3.6-27B model achieves 80 TPS with 218k context on single RTX 5090
A user on Reddit's r/LocalLLaMA community has shared details on achieving high performance with the Qwen3.6-27B model. By utilizing the NVFP4 with MTP quantization and the vLLM 0.19 inference server, they reported appro…
-
SpikingBrain2.0 model offers efficient long-context and cross-platform AI inference
Researchers have introduced SpikingBrain2.0 (SpB2.0), a 5 billion parameter model designed for efficient long-context processing and cross-platform inference. The model features a novel Dual-Space Sparse Attention mecha…
-
Hugging Face 模型修复 Qwen 聊天模板以改进工具使用
Hugging Face 模型库 froggeric/Qwen-Fixed-Chat-Templates 已更新,显著改进了其 Qwen 3.5 和 3.6 模型的聊天模板。这些更新解决了“空思考”投毒、系统提示逻辑陷阱和 KV 缓存不一致等问题。这些更改旨在增强模型使用工具的能力,在思考和对话响应之间进行转换,并在多步过程中保持一致的记忆。
-
vLLM releases v0.19.2rc0 with bug fixes for GLM-ASR
vLLM has released version 0.19.2rc0, which includes a bugfix for the k_proj bias in GLM-ASR models. This release is part of the ongoing development and maintenance of the vLLM project, a high-throughput and low-latency …
-
Moonshot AI 发布 Kimi K2.6 多模态代理模型
Moonshot AI 发布了 Kimi K2.6,一个开源的多模态模型,专为高级代理任务设计。该模型在多种语言和领域的长时程编码方面表现出显著的改进。Kimi K2.6 还擅长根据提示和视觉输入生成生产就绪的界面和全栈工作流,并注重美学精度。
-
Qwen发布27B多模态模型,用于高级编码
Qwen发布了Qwen3.6-27B,这是一款为高级编码任务设计的、参数量为270亿的密集多模态模型。该模型旨在提供旗舰级的智能体编码性能,超越了该类别中先前的开源模型。社区成员已在Hugging Face上提供了Qwen3.6-27B的各种量化版本,方便其在不同平台和库中使用。
-
Jiunsong/supergemma4-26b-uncensored-gguf-v2 模型集成到多个AI工具中
Jiunsong/supergemma4-26b-uncensored-gguf-v2 模型现已可用于各种流行的AI库和应用程序。这些应用程序包括llama-cpp-python、llama.cpp、vLLM、Ollama、Unsloth Studio和Pi。提供了详细的说明和代码片段,用于将模型集成到本地应用程序和服务器中,使用户能够直接运行推理或通过OpenAI兼容的API运行推理。
-
Notion、Salesforce、Uber 使用 Anyscale 的 Ray 框架扩展 AI
Anyscale 主办了 Ray Day Seattle,展示了 Notion 和 Salesforce 等公司如何使用 Ray 框架扩展 AI 工作负载。Notion 通过将 AI 管道迁移到 Ray,将多个步骤整合到一个引擎中,从而将嵌入成本显著降低了 80%,并提高了查询延迟。Salesforce 利用 Ray 构建了一个用于总结长篇文档的分布式系统,使用 20B 参数模型实现了低延迟。Uber 还展示了使用 Ray 改进其 M…
-
vLLM releases v0.19.1rc0 with Gemma 4 implementation updates
vLLM has released version 0.19.1rc0, which includes updates to its Gemma implementation. This release is part of ongoing development and feedback integration for the vLLM project.
-
HauhauCS 在 Hugging Face 上发布了未经审查的 Qwen 和 Gemma 模型
HauhauCS 已在 Hugging Face 上发布了两款新模型:Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 和 Gemma-4-E4B-Uncensored-HauhauCS-Aggressive。这些模型专为希望在本地或通过各种推理提供商运行它们的用户而设计。发布内容包括与 llama-cpp-python、llama.cpp、vLLM、Ollama 和 Unsloth Stu…
-
Anyscale 为 vLLM 中的 MoE 模型增加了 Ray Serve 容错功能
Anyscale 为其 vLLM 服务引擎引入了新的容错功能,该引擎与 Ray Serve 集成。此增强功能专门解决了部署大型专家混合(MoE)模型的挑战,这些模型被分片到多个 GPU 上。当一个数据并行(DP)组中的单个 GPU 发生故障时,新系统现在可以识别并重新启动构成该 DP 组的整个 GPU 组,从而防止整个部署变得不可用。
-
Google releases open-weight Gemma 4 multimodal models with long context
Google DeepMind has released Gemma 4, a new family of open-weight models licensed under Apache 2.0, marking a significant advancement in their open-source AI offerings. The models are designed for reasoning and agentic …
-
Alibaba's Qwen3.5-397B-A17B model offers multimodal capabilities and efficient inference
Alibaba has released Qwen3.5-397B-A17B, an open-weight, natively multimodal model featuring a hybrid attention mechanism and sparse Mixture-of-Experts architecture. The model boasts support for 201 languages and demonst…
-
Moonshot Kimi K2.5 - 以一半的成本击败 Sonnet 4.5,SOTA开源模型,首个原生图像+视频,100个并行Agent Swarm管理器
Moonshot 发布了 Kimi K2.6,一个更新的开源模型,增强了其在代理编码和多模态理解方面的能力。新版本采用 1T 参数的混合专家架构,拥有 32B 激活参数和 384 个专家,支持 256K 上下文窗口以及原生图像/视频处理。Kimi K2.6 在各种编码和推理基准测试中声称达到了最先进的性能,包括具有数千次工具调用和扩展自主运行的长视距任务。
-
NVIDIA Nemotron Diffusion模型提供6.4倍更快的AI推理速度
NVIDIA发布了Nemotron-Labs Diffusion系列语言模型,提供3B、8B和14B参数规模。这些模型在一个架构内独特地支持自回归(AR)、扩散和自推测解码模式,实现了显著的速度提升。通过并行生成token块而非顺序生成,Nemotron-Labs Diffusion的吞吐量比传统AR模型高出6.4倍,同时保持或提高了准确性。这一突破解决了AR模型固有的内存带宽瓶颈,使其在生产部署和代理系统中更高效。
-
Together AI 推出 AutoJudge 以加快 LLM 推理速度
Together AI 的研究人员开发了 AutoJudge,这是一种加速大型语言模型推理的新颖方法。该技术可自动精选特定任务的数据集,从而无需手动注释即可实现有损推测解码。AutoJudge 可识别影响下游质量的关键标记,在标准推测解码的基础上实现了高达 2 倍的速度提升,同时准确性损失极小。
-
Together AI Cloud 通过 TorchForge 和工具集成增强 RL 管道
Together AI 正在增强其云平台以支持高级强化学习 (RL) 管道,集成 TorchForge 和 Monarch 进行分布式训练。该平台现在提供低延迟 GPU 通信和异构调度,用于混合 CPU/GPU 工作负载,这对于复杂的 RL 任务至关重要。与 Together CodeSandbox 和 Code Interpreter 的新集成允许 RL 代理与工具交互并执行代码,从而将它们的能力扩展到传统的游戏场景之外。
-
开源 AI 代理服务使用 FastAPI 和 Pydantic-AI
一位开发者创建了一个开源的 AI 驱动的 Web 服务,该服务集成了 FastAPI 用于 API,Pydantic-AI 用于代理构建,以及 Model Context Protocol (MCP) 服务器用于工具。该服务允许用户从 Hacker News 和网络搜索等来源查询信息,并呈现带有摘要的排名趋势卡片。它支持各种本地 LLM 配置,并使用 Docker 进行容器化以进行生产部署。
-
Thinking Machines names Soumith Chintala new CTO, forms vLLM team
Thinking Machines has appointed Soumith Chintala as its new Chief Technology Officer, succeeding Barret Zoph. Chintala, who has a decade of experience in AI research and development, is expected to lead the company's te…