llama.cpp
PulseAugur coverage of llama.cpp — every cluster mentioning llama.cpp across labs, papers, and developer communities, ranked by signal.
- 2026-05-25 research_milestone A fix is expected for llama.cpp to address split mode tensor crashes. 来源
- 2026-05-25 product_launch A pull request was submitted to improve checkpoint creation and context handling in llama.cpp. 来源
- 2026-05-24 product_launch llama.cpp released version b9305 with pre-compiled binaries for multiple platforms. 来源
- 2026-05-17 research_milestone llama.cpp implements MTP optimizations and prompt decode improvements for faster local AI inference. 来源
- 2026-05-14 product_launch A performance-optimized fork of llama.cpp was released with new features. 来源
- 2026-05-12 product_launch llama.cpp project integrates llama-eval tool for model benchmarking. 来源
19 天有情绪数据
-
Qwen-3.5 35B 模型在 llama.cpp 上运行
Hugging Face 分享了一个演示,展示了 Qwen-3.5 35B 模型如何在流行的推理引擎 llama.cpp 上高效运行。该模型通过 'pi' 工具进行部署,展示了其在实际应用中的能力。这突显了持续优化大型语言模型以实现更广泛的可访问性和在消费级硬件上使用的努力。
-
英伟达的 Nemotron 3 Nano Omni 和 Llama.cpp 支持本地运行大型语言模型
Thomas Bley 发布了新的演示幻灯片,详细介绍了如何在本地运行大型语言模型。幻灯片涵盖了英伟达的 Nemotron 3 Nano Omni、Llama.cpp 的内置工具以及使用 Transformers.js 进行图像识别和 OCR 任务。
-
AI重塑软件开发,将焦点从代码转向想象力
超过3000名软件开发人员参加了由DeepLearning.AI组织的AI Dev 26 x SF会议,讨论AI在软件开发中不断演变的角色。发言者强调,AI正在将瓶颈从编码转移到想象力,并加速行业转型。虽然一些人将AI视为提高速度和效率的工具,但另一些人则强调降低缺陷率和保持代码正确性高标准的重要性,并提到了Hydro、Cedar和Strata等项目。
-
基于Bash的AI编码助手使用本地Gemma模型,性能超越Copilot
一位开发者创建了一个命令行编码助手,结合了bash、sed和grep等标准的Linux工具以及curl。这个名为“canitbedone”的项目利用Google的Gemma 4模型的一个本地实例,通过llama.cpp运行其AI功能。开发者报告称,该工具表现出人意料地好,在某些任务上甚至超越了GitHub Copilot,并且除了核心Linux实用程序和AI模型之外,依赖性极小。
-
消费级显卡也能快速上手!面壁智能MiniCPM-o 4.5发布技术报告
MiniCPM-o 4.5 是一个全新的 9B 参数的全模态大语言模型,专为实时、全双工交互而设计。它可以同时处理和生成音频、视频和文本,实现主动行为和持续的环境理解。该模型利用 Omni-Flow 框架进行时间对齐处理,并针对高效推理进行了优化,使其能够在内存小于 12GB 的边缘设备上运行。
-
Hugging Face 发布 OCR、安全和模型更新
Hugging Face 宣布了对其平台的多项更新和合作。其中包括通过开放模型增强 OCR 管道,集成 Sentence Transformers,以及发布 Transformers.js v4。此外,Hugging Face 正通过与 VirusTotal 的合作加强 AI 安全,并推出 Granite 4.0 Nano 和 AnyLanguageModel 等新模型以实现高效的 LLM 操作。
-
llama.cpp 和 ik_llama.cpp 为节省 VRAM 添加 FP4 推理支持
llama.cpp 和 ik_llama.cpp 项目均已集成对 FP4(4位浮点)推理的支持,这是模型量化的一项重大进展。llama.cpp 现在包含 NVFP4,一种 Nvidia 特定的格式,而 ik_llama.cpp 支持 MXFP4,遵循 MX 联盟标准。预计这些进展将大幅降低 VRAM 需求,一旦模型支持跟上,就能在消费级硬件上运行更大的模型。
-
llama.cpp CUDA pull request 优化 MoE 模型的 MMQ stream-k 开销
llama.cpp 项目的一个 pull request 旨在减少 CUDA 的 MMQ stream-k 操作中的开销。此优化针对专家混合(MoE)模型,可能导致更快的提示处理速度。这些更改是改善本地大型语言模型推理性能的持续努力的一部分。
-
用户详述在 M2 Macbook Pro 上为编码设置 Qwen 3.6 35B-A3B 模型
一位用户已成功配置 Qwen 3.6 35B-A3B 模型,以便在配备 32GB RAM 的 M2 Macbook Pro 上本地运行,用于编码任务。该设置包括从源代码构建 llama.cpp 软件,并从 Hugging Face 下载特定的模型和视觉适配器文件。用户提供了运行模型的详细说明和命令行参数,并强调需要关闭其他应用程序以管理内存限制。
-
Jiunsong/supergemma4-26b-uncensored-gguf-v2 模型集成到多个AI工具中
Jiunsong/supergemma4-26b-uncensored-gguf-v2 模型现已可用于各种流行的AI库和应用程序。这些应用程序包括llama-cpp-python、llama.cpp、vLLM、Ollama、Unsloth Studio和Pi。提供了详细的说明和代码片段,用于将模型集成到本地应用程序和服务器中,使用户能够直接运行推理或通过OpenAI兼容的API运行推理。
-
HauhauCS 在 Hugging Face 上发布了未经审查的 Qwen 和 Gemma 模型
HauhauCS 已在 Hugging Face 上发布了两款新模型:Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 和 Gemma-4-E4B-Uncensored-HauhauCS-Aggressive。这些模型专为希望在本地或通过各种推理提供商运行它们的用户而设计。发布内容包括与 llama-cpp-python、llama.cpp、vLLM、Ollama 和 Unsloth Stu…
-
Google 发布支持长上下文的开源 Gemma 4 多模态模型
Google DeepMind 发布了 Gemma 4,这是一个在新发布的、基于 Apache 2.0 许可的开源模型家族,标志着其开源 AI 产品的一次重大进步。这些模型专为推理和代理工作流而设计,并提供了针对本地和边缘部署优化的版本,包括文本、视觉和音频的原生多模态能力。早期基准测试表明其性能具有竞争力,其中 31B 模型在开源选项中排名靠前,并且 llama.cpp 和 Ollama 等平台已迅速提供了生态系统支持。
-
IonRouter 和 RunAnywhere 发布新 AI 推理和设备端解决方案
IonRouter 推出了名为 IonAttention 的新推理堆栈,旨在通过在单个 GPU 上复用模型来实现高吞吐量和低成本,兼容 NVIDIA Grace Hopper。另外,RunAnywhere 发布了 RCLI,这是一款 macOS 的设备端语音 AI,使用其专有的 MetalRT 引擎在 Apple Silicon 上本地运行推理,提供本地 RAG 和 VLM 等功能。
-
Show HN: OpenSwarm – 适用于 Linear/GitHub 的多智能体 Claude CLI 编排器
OpenSwarm 是一款新的命令行界面工具,旨在协调多个 AI 智能体以执行自主的代码相关任务。它可以与各种 AI 模型集成,包括 Anthropic 的 Claude、OpenAI 的 GPT 和 Codex,以及本地开源模型。该工具旨在自动化工作流程,例如从 Linear 等平台拾取问题、运行代码审查管道以及通过 LanceDB 等数据库维护长期记忆。
-
Hugging Face 集成 GGML 和 llama.cpp 以支持本地 AI
Hugging Face 已宣布 GGML 和 llama.cpp 加入该平台。此次集成旨在促进本地 AI 项目的持续发展和长期进步。此举预计将惠及开源社区,并加速在个人硬件上运行 AI 模型的创新。
-
新的模拟器和框架增强了LLM的训练、推理和微调
研究人员开发了几个新的工具和框架,以提高大型语言模型(LLM)操作的效率和准确性。Charon和Frontier是旨在高精度预测LLM训练和推理性能的模拟器,有助于优化工作。FT-Dojo为自主LLM微调提供了一个基准环境,而rePIRL提供了一个受逆强化学习启发的框架来学习过程奖励模型。此外,PALS专注于混合专家模型的功耗感知LLM服务,而LlamaWeb使用WebGPU在Web浏览器中实现内存高效的LLM推理。
-
Gemma 3n 在开源生态系统中全面可用!
Google DeepMind 已全面发布 Gemma 3n,这是一款专为设备端应用设计的移动优先多模态模型。这种新架构支持图像、音频、视频和文本输入,以及文本输出,并针对效率进行了优化,提供有效参数为 2B 和 4B 的版本,模仿了传统 2B 和 4B 模型的内存占用。Gemma 3n 引入了 MatFormer 等新组件以提高灵活性,以及 Per Layer Embeddings 以提高内存效率,在多语言、数学、编码和推理方面取得…
-
Meta 的 Llama 2 超越开源 LLM 排行榜,支持商业用途
Meta 发布了 Llama 2,一个开源的大型语言模型,它迅速成为同级别模型中的最先进水平,性能超越了其他开源模型。该模型在 2 万亿个 token 上进行了预训练,具有更长的上下文长度,并在人类反馈强化学习方面进行了大量投入。Llama 2 可用于商业用途,满足了不能将敏感数据发送给外部 API 提供商的组织的关键需求,并为 GPT-4 等专有模型提供了替代方案。