一款名为 InferBench 的新开源桌面应用程序已发布,旨在帮助用户确定哪些大型语言模型 (LLM) 可以在其本地 GPU 上运行以及运行速度如何。该工具自动化了下载模型、配置模型以获得最佳硬件性能以及测量关键指标(如首次 token 时间、每秒 token 数和 VRAM 使用量)的过程。InferBench 计算精确的 KV 缓存需求以预测最大上下文长度,并选择最佳量化,从而摆脱了猜测和手动测试。 AI
影响 简化了硬件有限用户的本地 LLM 部署和性能调优。
排序理由 这是一个新的开源软件工具,供用户在本地硬件上测试 LLM 性能。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →