DecagonAI 通过从闭源模型迁移到在 Together AI 上托管的微调开源模型,将其语音代理的成本显著降低了近六倍。此次迁移在保持实时语音交互低延迟的同时,实现了每次交互低于 400 毫秒的 p95 模型延迟。优化措施包括自定义投机器、提示缓存以及在 NVIDIA Blackwell 硬件上部署,从而能够频繁更新模型。 AI
影响 展示了通过为专业应用迁移到微调开源模型而非专有模型,可以实现显著的成本效益和性能提升。
排序理由 这是一个关于公司使用 AI 基础设施改进其产品的案例研究,而不是发布新的前沿模型或核心研究。
在 X — Together (inference / OSS) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →