一家广告分析SaaS提供商发现,将检索增强生成(RAG)的块大小从512个token增加到1024个token,虽然将向量存储成本减半,但显着增加了Claude Sonnet的输入token使用量。这导致每月净成本增加92美元,因为更大的上下文窗口抵消了向量化节省的1.20美元。更大的块还导致了“稀释”,Claude包含了过多的无关信息,错过了特定的异常,而较小的块有时提供了不完整的数据。该提供商现在使用双索引方法,具有单独的512-token和256-token命名空间,以针对不同的查询类型进行优化。 AI
影响 优化 RAG 块大小对于管理 LLM 推理成本和提高响应准确性至关重要。
排序理由 用户级别的 RAG 分块策略优化,以实现成本和性能。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →