Hugging Face 推出了一项新功能,允许用户通过一条命令在其 HF Jobs 基础设施上部署 vLLM 服务器。这简化了为模型测试、评估或批量生成等任务设置私有、OpenAI 兼容端点的过程。该服务仅对作业积极运行的时间收费,并通过指定张量并行性来支持各种 GPU 类型和更大的模型。 AI
影响 简化了开发者的 LLM 部署流程,降低了测试和批量处理的基础设施开销。
排序理由 这是对现有平台的产品更新,为特定技术启用了一种新的部署方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →