一款名为 SuperCompress 的新开源工具已被开发出来,旨在显著降低与大语言模型相关的计算成本。该工具通过在 CPU 上预处理 token 来运行,在将信息传递到 GPU 进行推理之前,识别并移除不相关或冗余的信息。此过程可将 token 使用量减少高达 65%,从而在计算资源、能源消耗和碳排放方面实现可观的节省。SuperCompress 可作为免费 API 层和 Python 库使用,并提供适用于 OpenAI 和 LangChain 等热门平台的集成指南。 AI
影响 降低大语言模型的运营成本和环境影响,可能加速人工智能的采用。
排序理由 该集群描述了一款优化大语言模型性能和成本的新软件工具。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →