Ollama Cloud 提供一项托管推理服务,用于开源大语言模型,允许用户在 Ollama 的 GPU 上运行模型,无需本地硬件。该服务有三个套餐:免费版、专业版(20美元/月)和至尊版(100美元/月),用量以 GPU 时间而非 token 计算。免费版适合试用较轻量级模型,专业版推荐用于日常工程工作和更高的并发量,至尊版则专为需要持续并发访问最强大模型的生产工作负载而设计。 AI
影响 提供用于运行开源大语言模型的托管云基础设施,简化了开发者的访问。
排序理由 文章描述了托管推理服务的不同层级的产品。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →