一位分析其 Cursor 应用程序 LLM 使用情况的用户发现,请求成本并非仅由 token 总数决定。两次 token 数量几乎相同的请求,分别为 134 万和 140 万,费用却显著不同:分别为 1.13 美元和 2.96 美元。这种差异的出现是因为 LLM 成本是根据四个类别的加权总和计算的:输入、缓存写入、缓存读取和输出,每个类别都有自己的定价。会话中的第一个请求通常最昂贵,因为它包含缓存写入成本,而后续请求则受益于更便宜的缓存读取。上下文中的更改,例如编辑规则或总结历史记录,可能会使缓存失效并导致后续 token 成本更高。 AI
影响 理解 LLM 的成本结构对于优化 AI 应用的开发和部署至关重要。
排序理由 用户层面分析特定产品的成本结构。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →