PulseAugur
实时 19:37:35
Español(ES) Cómo saber qué LLM te entra en tu GPU (y a cuántos tok/s) sin adivinar

InferBench 应用简化本地 LLM 性能测试

一款名为 InferBench 的新开源桌面应用程序已发布,旨在帮助用户确定哪些大型语言模型 (LLM) 可以在其本地 GPU 上运行以及运行速度如何。该工具自动化了下载模型、配置模型以获得最佳硬件性能以及测量关键指标(如首次 token 时间、每秒 token 数和 VRAM 使用量)的过程。InferBench 计算精确的 KV 缓存需求以预测最大上下文长度,并选择最佳量化,从而摆脱了猜测和手动测试。 AI

影响 简化了硬件有限用户的本地 LLM 部署和性能调优。

排序理由 这是一个新的开源软件工具,供用户在本地硬件上测试 LLM 性能。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

InferBench 应用简化本地 LLM 性能测试

报道来源 [1]

  1. dev.to — LLM tag TIER_1 Español(ES) · Jonathan Martin Paez ·

    How to know which LLM fits on your GPU (and at how many tok/s) without guessing

    <p>monté <a href="https://github.com/JoniMartin27/inferbench" rel="noopener noreferrer">InferBench</a><strong>, una app de escritorio open source que, con un click, descarga el motor, baja el modelo, lo arranca con la config óptima para tu hardware y **mide de verdad</strong> TTF…