研究人员开发了 FMplex,这是一个新颖的系统,旨在通过将基础模型 (FM) 视为虚拟化底层来优化其服务。这种方法允许多个下游任务共享单个物理 FM 实例,从而减少内存浪费并摊销与批处理和加载相关的成本。FMplex 可实现任务特定的扩展和隔离,同时提高效率,其延迟显著降低和任务托管能力增强得到了证明。 AI
影响 优化基础模型的部署,可能降低人工智能应用的基础设施成本并提高延迟。
排序理由 该集群包含一篇详细介绍基础模型服务新系统的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →