llama.cpp
PulseAugur coverage of llama.cpp — every cluster mentioning llama.cpp across labs, papers, and developer communities, ranked by signal.
- 2026-05-25 research_milestone A fix is expected for llama.cpp to address split mode tensor crashes. 来源
- 2026-05-25 product_launch A pull request was submitted to improve checkpoint creation and context handling in llama.cpp. 来源
- 2026-05-24 product_launch llama.cpp released version b9305 with pre-compiled binaries for multiple platforms. 来源
- 2026-05-17 research_milestone llama.cpp implements MTP optimizations and prompt decode improvements for faster local AI inference. 来源
- 2026-05-14 product_launch A performance-optimized fork of llama.cpp was released with new features. 来源
- 2026-05-12 product_launch llama.cpp project integrates llama-eval tool for model benchmarking. 来源
19 天有情绪数据
-
Local LLM inference boosted by Qwen optimizations and new UI
Recent developments in local LLM inference focus on optimizing performance and VRAM usage for models like Qwen 3.6 and 3.5. One approach involves detailed backend comparisons for Qwen 3.6 27B on consumer GPUs, identifyi…
-
llama.cpp 路由器模式支持无需重启即可进行多模型管理
llama.cpp 路由器模式允许本地 LLM 操作员管理多个模型,提供与 Ollama 等服务类似的性能和控制。虽然它支持加载和卸载单个模型,但没有直接的 API 端点可以同时卸载所有模型。用户可以通过首先查询路由器以获取所有已加载的模型,然后以编程方式为每个模型发送单独的卸载请求来实现这一点,这种方法提供了明确的控制,并避免了重启整个推理服务。
-
开发者使用 llama.cpp 在 AWS EC2 上自托管 Llama 3.1
一位开发者详细介绍了如何使用 llama.cpp 在 AWS EC2 g4dn.xlarge 实例上自托管 Meta 的 Llama 3.1 8B Instruct 模型。该设置涉及使用量化模型版本以适应实例的 15GB VRAM,并使用 CUDA 支持编译 llama.cpp 以实现 GPU 加速。这种方法提供了一个与 OpenAI 兼容的 API 端点,与按 token 计算的云服务相比,可能降低成本。
-
Llama.cpp adds MTP for Mac, improves offline builds
The llama.cpp project has introduced a new Metal Performance Tensors (MTP) feature for Mac hardware, showing potential gains in token generation speed. Initial tests on an M2 Ultra indicate that while prompt processing …
-
llama.cpp boosts local AI with MTP and new coding model
The llama.cpp project has implemented significant optimizations, including Multi-Tensor Processing (MTP) support and prompt decode improvements, to enhance local AI inference performance. These advancements allow for fa…
-
推荐Q4_K_M用于本地LLM量化,平衡质量和显存
文章推荐Q4_K_M量化作为大多数本地LLM用户在质量和显存效率之间取得最佳平衡的选择,可保留93-96%的FP16质量。对于拥有更多显存的用户,Q5_K_M在复杂推理和创意任务方面提供了显著的改进。Q3_K_M等较低的量化级别被视为在显存受限情况下的折衷方案,而Q6_K和Q8_0的收益递减,Q2_K及以下由于质量严重下降而被视为最后的选择。
-
llama.cpp 加速本地模型,OpenAI 扩大 ChatGPT Plus 访问范围,AI 攻破 CTF 竞赛
开源项目 llama.cpp 推出了多令牌预测支持,可将性能提升高达 1.8 倍。此外,OpenAI 已将其 ChatGPT Plus 服务提供给整个国家。另外,AI 系统在攻破 Capture The Flag (CTF) 网络安全竞赛方面展示的能力也日益增强。
-
开源工具帮助用户为硬件选择自托管 LLM
一个开源工具已被开发出来,以帮助用户选择与特定硬件兼容的自托管大型语言模型(LLM)。该工具在浏览器中运行,考虑平台、可用内存和预期用例等因素来推荐合适的模型。它还提供了一个精选的模型目录,包含清晰的许可信息、安装指南和面向新手的术语表。
-
Llama.cpp adds MTP, new Gemma-4 finetune released, Qwen 3.6 excels locally
The llama.cpp project has integrated Multi-head Attention Parallelism (MTP), leading to an 11.5% speed increase for 27B Qwen models in local inference. A new finetuned Gemma-4 model, optimized for creative writing and a…
-
开源扫描器利用LLM查找代码合规性违规
一位开发者创建了Themida,一个开源合规扫描器,它利用LLM分析代码,查找GDPR和欧盟AI法案等法规的违规之处。与依赖文档的传统工具不同,Themida检查实际代码行以识别特定风险,例如弱密码哈希。该扫描器进行多轮扫描以确保准确性和控制成本,典型扫描成本在5到20美分之间。Themida支持各种LLM提供商并可自行托管,未来计划添加更多合规标准和集成。
-
本地AI进展:Qwen3-8B加速,离线Gemma机器人,及多模态模型
一项新的加速技术被开发出来,据称能使Qwen3-8B语言模型实现7.8倍的速度提升,且输出与原模型相同。另外,一个名为Sparky的完全离线行李箱机器人,使用Gemma 4 E4B模型和llama.cpp在Jetson Orin NX上构建,展示了在边缘硬件上本地部署AI的能力。此外,Intern-S2-Preview,一个35B的科学多模态模型,已在Hugging Face上发布,专注于用于本地部署的新颖“任务扩展”方法。
-
Redis creator releases DwarfStar 4 for fast local AI inference
DwarfStar 4 (DS4), a new local AI inference engine, has gained rapid popularity for its focus on integrating a single, high-performance model. Developed by Salvatore Sanfilippo, creator of Redis, DS4 is specifically opt…
-
LLaMA.cpp boosts Qwen, Ring-1T model debuts on Ollama, AMD GPU fixes
The LLaMA.cpp framework has been updated to significantly boost the performance of Qwen models through Multi-Token Prediction and TurboQuant, reportedly achieving a 40% speed increase. Additionally, the 1 trillion param…
-
llama.cpp fork boosts performance with new decoding and compression
A performance-optimized fork of the llama.cpp project has been released, incorporating advanced techniques like DFlash-speculative decoding and TurboQuant/TCQ-KV-cache compression. This fork also features adaptive desig…
-
新的大型语言模型因过大或过于复杂而无法在家庭实验室运行
作者详细说明了最近发布的三个大型语言模型——DeepSeek V4-Pro、DeepSeek V4-Flash 和 Zyphra ZAYA1-8B——目前为何无法在典型的家庭实验室硬件上运行。DeepSeek V4-Pro 体积过大,为 805 GB,需要数据中心规模。DeepSeek V4-Flash 虽然体积较小,但仍需要大量内存,并且缺乏广泛的软件支持。Zyphra ZAYA1-8B 体积合适,但使用了新颖的架构,尚未开发出相应的推理软件。
-
Docker Model Runner simplifies local AI development with integrated LLM support
Docker has integrated a new feature called Model Runner directly into Docker Desktop, simplifying local AI development. This tool allows users to pull and run various language models, such as Llama 3.1 and Phi-3-mini, u…
-
开发者将 llama.cpp 优化应用于 PHP,发现结果喜忧参半
一位开发者探索了 llama.cpp 项目中的优化技术,以提高 PHP 性能,特别是在处理大型数据集方面。他们发现,虽然内存映射技术显著减少了海量数据集的加载时间和内存使用量,但与优化的数组访问相比,它们在单个查找方面速度较慢。研究还表明,PHP 的 SplFixedArray 与一些人的看法相反,可以节省内存,但不会提高密集数值数据的速度。
-
llama.cpp 增加评估工具;MagicQuant v2.0 提供混合 GGUF 量化
llama.cpp 项目引入了 llama-eval,一个用于根据标准数据集对本地语言模型进行基准测试的新工具。同时,MagicQuant v2.0 发布了先进的混合 GGUF 量化技术,并与 Unsloth 集成以优化模型压缩。此外,一个名为 Needle 的新 26M 参数开源模型已发布,专为在消费级硬件上进行高效的本地工具调用而设计。
-
Anthropic engineer shares agent-building insights; GPU demo shows Qwen model run
An engineer from Anthropic, who authored "Building Effective Agents," has shared a 14-minute presentation on the topic. Separately, a demonstration showcased the use of three 2017-era GTX 1080 Ti GPUs with llama.cpp's M…
-
ExLlamaV3、Unsloth Qwen 和 Phi3 代理迎来重大本地 AI 更新
本周的本地 AI 新闻重点介绍了 ExLlamaV3 推理库的重大更新,提高了在消费级 GPU 上运行量化 Llama 模型时的效率。此外,通过 Unsloth 提供了 Qwen 3.6 模型的新 GGUF 量化版本,使其更容易在本地使用。该集群还展示了一个创新项目,该项目使用 Phi3 模型创建一个能够控制用户主计算机的自主代理。