PulseAugur
实时 12:52:33
English(EN) Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)

Krasis LLM 运行时用 Rust 重写,速度提升

Krasis LLM 运行时已更新至 1.0 版本,采用 Rust 完全重写,以提高性能和效率。此次更新移除了 Python 在关键执行路径中的使用,从而加快了预填充和解码速度。Krasis 现在支持 Ampere (RTX 3000 系列) GPU,并优化了内存需求,在系统 RAM 中仅需量化模型大小的 1 倍加上开销。 AI

影响 提高了在本地运行大型 LLM 的效率,可能降低了高级模型使用的硬件门槛。

排序理由 LLM 运行时的软件更新,并非新模型发布或核心研究。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/mrstoatey ·

    Krasis更新:Qwen3.6-35B-A3B (Q4) 以读取速度运行,1x 8GB 3070 移动版笔记本(32GB RAM)

    <!-- SC_OFF --><div class="md"><h1>Context</h1> <p>Krasis is an LLM runtime for running models that don't fit into VRAM. Krasis streams the model through VRAM from system RAM efficiently and handles prefill and decode as separate architectures and optimised usecases.</p> <h1>Late…