English(EN) RT @dzhulgakov: do you know what you pay for in agentic workloads? cached tokens!

Fireworks 为代理工作负载削减推理成本

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 19:34

Fireworks 是一家推理基础设施提供商，已降低了其在代理工作负载中缓存 token 的定价。该公司现在为缓存 token 提供 1/10 的折扣，与之前的 1/5 折扣相比有了显著改进。此举旨在为运行复杂代理任务（尤其是涉及大量工具调用的任务）的用户提供可观的节省。 AI

影响此定价调整可能为在复杂任务中使用 AI 代理的用户带来显著的成本节省，从而可能鼓励更广泛地采用此类工作负载。

排序理由一家公司宣布了其推理基础设施服务的定价变更。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

X — Fireworks (inference infra) TIER_1 English(EN) · FireworksAI_HQ · 2026-07-01 19:34

RT @dzhulgakov: do you know what you pay for in agentic workloads? cached tokens!

RT @dzhulgakov: do you know what you pay for in agentic workloads? cached tokens! session with 50+ tool calls -> prompt is billed 50 times…