English(EN) .@DecagonAI cut voice agent cost per turn nearly 6x with Together AI.

DecagonAI 通过 Together AI 和开源模型将语音代理成本降低 6 倍

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 17:29

DecagonAI 通过从闭源模型迁移到在 Together AI 上托管的微调开源模型，将其语音代理的成本显著降低了近六倍。此次迁移在保持实时语音交互低延迟的同时，实现了每次交互低于 400 毫秒的 p95 模型延迟。优化措施包括自定义投机器、提示缓存以及在 NVIDIA Blackwell 硬件上部署，从而能够频繁更新模型。 AI

影响展示了通过为专业应用迁移到微调开源模型而非专有模型，可以实现显著的成本效益和性能提升。

排序理由这是一个关于公司使用 AI 基础设施改进其产品的案例研究，而不是发布新的前沿模型或核心研究。

在 X — Together (inference / OSS) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

X — Together (inference / OSS) TIER_1 English(EN) · togethercompute · 2026-06-16 17:29

.@DecagonAI cut voice agent cost per turn nearly 6x with Together AI.

.@DecagonAI cut voice agent cost per turn nearly 6x with Together AI. They moved from closed models to fine-tuned open models, while keeping latency low enough for real-time voice: → <400ms p95 model latency per turn → custom speculators and prompt caching → optimized

报道来源 [1]

.@DecagonAI cut voice agent cost per turn nearly 6x with Together AI.

相关实体

相关话题