PulseAugur
实时 22:41:56
English(EN) .@DecagonAI cut voice agent cost per turn nearly 6x with Together AI.

DecagonAI 通过 Together AI 和开源模型将语音代理成本降低 6 倍

DecagonAI 通过从闭源模型迁移到在 Together AI 上托管的微调开源模型,将其语音代理的成本显著降低了近六倍。此次迁移在保持实时语音交互低延迟的同时,实现了每次交互低于 400 毫秒的 p95 模型延迟。优化措施包括自定义投机器、提示缓存以及在 NVIDIA Blackwell 硬件上部署,从而能够频繁更新模型。 AI

影响 展示了通过为专业应用迁移到微调开源模型而非专有模型,可以实现显著的成本效益和性能提升。

排序理由 这是一个关于公司使用 AI 基础设施改进其产品的案例研究,而不是发布新的前沿模型或核心研究。

在 X — Together (inference / OSS) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. X — Together (inference / OSS) TIER_1 English(EN) · togethercompute ·

    .@DecagonAI cut voice agent cost per turn nearly 6x with Together AI.

    .@DecagonAI cut voice agent cost per turn nearly 6x with Together AI. They moved from closed models to fine-tuned open models, while keeping latency low enough for real-time voice: → <400ms p95 model latency per turn → custom speculators and prompt caching → optimized