PulseAugur
实时 02:24:08
实体 vLLM

vLLM

PulseAugur coverage of vLLM — every cluster mentioning vLLM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
84
90 天内 84
发布 · 30天
0
90 天内 0
论文 · 30天
23
90 天内 23
层级分布 · 90 天
关系
时间线
  1. 2026-05-15 product_launch vLLM released version 0.21.1rc0.
情绪 · 30 天

15 天有情绪数据

最近 · 第 5/5 页 · 共 84 条
  1. SIGNIFICANT · CL_01809 ·

    Oracle secures $300B OpenAI contract, boosting OCI revenue growth

    Oracle's cloud infrastructure division announced a significant surge in revenue bookings, reaching $455 billion, largely due to a substantial contract with OpenAI. This deal positions Oracle as a key player in providing…

  2. FRONTIER RELEASE · CL_01752 ·

    MiniMax 2.7: GLM-5 at 1/3 cost SOTA Open Model

    MiniMax has released MiniMax 2.7, an open-source model that matches the performance of Z.ai's GLM-5 on several benchmarks but at a significantly lower cost. The model is noted for its efficiency and claims to be the fir…

  3. RESEARCH · CL_36289 ·

    新的模拟器和框架增强了LLM的训练、推理和微调

    研究人员开发了几个新的工具和框架,以提高大型语言模型(LLM)操作的效率和准确性。Charon和Frontier是旨在高精度预测LLM训练和推理性能的模拟器,有助于优化工作。FT-Dojo为自主LLM微调提供了一个基准环境,而rePIRL提供了一个受逆强化学习启发的框架来学习过程奖励模型。此外,PALS专注于混合专家模型的功耗感知LLM服务,而LlamaWeb使用WebGPU在Web浏览器中实现内存高效的LLM推理。

  4. RESEARCH · CL_40753 ·

    Graft 和 FlexDraft 通过新的推测性解码方法提升 LLM 速度

    两篇新研究论文 Graft 和 FlexDraft 引入了先进的推测性解码技术,以加速大型语言模型推理。Graft 结合了剪枝和检索,以填补剪枝分支留下的空白,在无需训练的情况下实现了显著的加速。FlexDraft 采用注意力调整和奖励引导校准,以灵活适应不同的批处理大小,缓解草稿验证不匹配问题并提高吞吐量。这些方法旨在通过允许以接近小型模型的速度提供高质量响应,来克服 LLM 部署中的延迟-成本陷阱。