实体 ik_llama.cpp

ik_llama.cpp

PulseAugur coverage of ik_llama.cpp — every cluster mentioning ik_llama.cpp across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_104044 · Jun 22 · 17:48

ik_llama.cpp 添加对 Laguna M.1 GGUF 模型的支持

ik_llama.cpp 存储库已提交一个拉取请求，以添加对 Laguna M.1 GGUF 模型的支持。此更新，即拉取请求 #2003，旨在将新的模型格式集成到现有代码库中。Laguna M.1 模型可在 Hugging Face 上找到，据报道 ik_llama.cpp 项目也支持 Laguna XS.2 模型。
TOOL · CL_103504 · Jun 21 · 17:37

新的 "--numa mirror" 模式提升 CPU 推理性能

一位开发者 fork 了 ik_llama.cpp 项目，引入了一个新的 "--numa mirror" 模式，旨在提升多路 CPU 系统的性能。该模式通过为每个 CPU 插槽创建模型权重和 KV 缓存的副本，解决了 CPU 访问非本地内存时产生的显著性能损失问题。虽然这需要更多的 RAM，但它允许利用所有插槽上的所有 CPU 核心来加速推理，这与仅限于单个插槽使用的 "--numa isolate" 模式不同。开发者正在寻找测试者来…
TOOL · CL_103503 · Jun 21 · 14:35

新的 Qwen3.6-27B 量化优化至 16GB 显存，多 GPU 设置展现强劲性能

Qwen3.6-27B 模型发布了新的实验性量化版本，用于本地 LLM 推理，专注于优化 NVIDIA 显存为 16GB 的 GPU 性能。其中一个量化版本 IQ4_KS 调整了代码任务的逻辑，牺牲了通用知识；另一个版本 IQ4_KS_KT 利用 Trellis 算法提高效率。此外，另一位用户详细介绍了他们使用两块总计 64GB 显存的 Radeon R9700 GPU 运行 Qwen 3.6 27B Q8 MTP 模型，并支持大上下…
TOOL · CL_55274 · May 27 · 19:26

Qwen 3.5 35B 模型在 300 美元的笔记本电脑上以 10.33 t/s 的速度运行

Reddit 的 r/LocalLLaMA 子版块的一位用户详细介绍了他们在经济型笔记本电脑上运行 Qwen 3.5 35B 模型的体验。他们在配备 40GB RAM 的 300 美元联想 Ideapad Slim 3i 上实现了每秒 10.33 个 token 的推理速度。该设置涉及特定的优化以及使用 ik_llama.cpp 推理后端。
TOOL · CL_43106 · May 21 · 21:33

Qwen 3.6 模型通过 llama.cpp 在消费级 GPU 上达到 110 tokens/秒

开源模型 Qwen 3.6 的 350 亿参数版本，在拥有 12GB 显存的消费级 GPU 上实现了令人印象深刻的每秒 110 token 的推理速度。这一性能得益于 llama.cpp 的一个特殊变体（称为 ik_llama.cpp）以及特定的量化技术。此外，Qwen 3.6 的 270 亿参数版本也已成功通过 llama.cpp 的服务器配置在本地部署，为自托管 AI 应用提供了实际案例。
RESEARCH · CL_03577 · Apr 25 · 15:42

llama.cpp 和 ik_llama.cpp 为节省 VRAM 添加 FP4 推理支持

llama.cpp 和 ik_llama.cpp 项目均已集成对 FP4（4位浮点）推理的支持，这是模型量化的一项重大进展。llama.cpp 现在包含 NVFP4，一种 Nvidia 特定的格式，而 ik_llama.cpp 支持 MXFP4，遵循 MX 联盟标准。预计这些进展将大幅降低 VRAM 需求，一旦模型支持跟上，就能在消费级硬件上运行更大的模型。