PulseAugur
实时 14:30:44
English(EN) 32B LLM on a 2008 Xeon: When RAM Matters More Than VRAM

旧服务器的64GB内存运行32B LLM,超越现代笔记本电脑的显存限制

一项实验探索了在一台2008年的服务器上运行一个320亿参数的LLM,该服务器拥有64GB内存但没有专用GPU,并将其与一台配备GeForce RTX 4070的现代笔记本电脑进行了对比。尽管老旧硬件的推理速度明显较慢(0.01 tokens/秒),但它成功地将模型完全运行在系统内存中,而现代笔记本电脑由于显存和内存总和不足而难以实现这一点。实验还强调,即使是大型模型,在没有专门训练的情况下,在生成Forth代码等专业编程任务上可能表现不佳。 AI

影响 证明了充足的系统内存可以在显存成为瓶颈的情况下实现LLM执行,尽管速度会有显著的权衡。

排序理由 该集群详细介绍了一项比较运行LLM的硬件配置的实验,重点关注系统内存与显存的对比,这构成了对AI基础设施的研究。[lever_c_demoted from research: ic=1 ai=0.7]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

旧服务器的64GB内存运行32B LLM,超越现代笔记本电脑的显存限制

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Alexey Bolshakov ·

    32B LLM on a 2008 Xeon: When RAM Matters More Than VRAM

    <p><em>Read the original in Russian: <a href="https://dev.to/ua3mqj/zapusk-32b-ii-modieli-na-starom-xeon-64-gb-ram-protiv-rtx-4070-2lcg">32B LLM on a 2008 Xeon: When RAM Matters More Than VRAM</a></em></p> <p><em>Experiment screencast: <a href="https://www.youtube.com/watch?v=Tup…