PulseAugur
实时 17:35:26
实体 llama.cpp

llama.cpp

PulseAugur coverage of llama.cpp — every cluster mentioning llama.cpp across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
98
90 天内 98
发布 · 30天
0
90 天内 0
论文 · 30天
7
90 天内 7
层级分布 · 90 天
关系
时间线
  1. 2026-05-25 research_milestone A fix is expected for llama.cpp to address split mode tensor crashes. 来源
  2. 2026-05-25 product_launch A pull request was submitted to improve checkpoint creation and context handling in llama.cpp. 来源
  3. 2026-05-24 product_launch llama.cpp released version b9305 with pre-compiled binaries for multiple platforms. 来源
  4. 2026-05-17 research_milestone llama.cpp implements MTP optimizations and prompt decode improvements for faster local AI inference. 来源
  5. 2026-05-14 product_launch A performance-optimized fork of llama.cpp was released with new features. 来源
  6. 2026-05-12 product_launch llama.cpp project integrates llama-eval tool for model benchmarking. 来源
情绪 · 30 天

19 天有情绪数据

最近 · 第 4/5 页 · 共 98 条
  1. TOOL · CL_26871 ·

    本地LLM用户发现较低的量化能以最小的质量损失来降低延迟

    通过理解量化对延迟和质量的影响,可以优化本地运行大型语言模型。虽然Q4_K_M是常见的默认设置,但像Q3_K_S这样的较低量化级别可以显著降低编码问题等任务的延迟,并且感知的质量损失很小。最佳量化级别取决于具体的用例和上下文窗口大小,需要用户分析他们的工作流程以找到速度、内存使用和输出质量之间的最佳平衡。

  2. COMMENTARY · CL_26679 ·

    本地文档AI需要OCR、RAG和本地推理

    构建一个完全本地化的文档AI系统,需要的不仅仅是在本地机器上运行一个语言模型。它需要一个完整的管道,包括用于文档解析的光学字符识别(OCR)、用于搜索和选择相关信息的检索系统(RAG),以及用于生成响应的本地推理。如果没有强大的OCR和解析能力,检索系统可能无法找到准确的信息,导致本地LLM给出错误的答案。许多被宣传为“本地AI”的系统是不完整的,它们依赖外部服务来完成OCR或嵌入等关键步骤,从而损害了真正的本地运行。

  3. TOOL · CL_25715 ·

    Apple的MLX框架加速Mac上的本地LLM

    Apple的MLX框架正在显著提升Apple Silicon Mac上的本地LLM性能,其表现优于llama.cpp等工具。LM Studio,一个流行的LLM前端,现在在Apple Silicon上利用MLX,与之前的默认设置如llama.cpp相比,速度有了大幅提升。这种优化使得统一内存得到高效利用,从而可以在内存充足的Mac上流畅运行更大的模型。

  4. TOOL · CL_25426 ·

    DeepSeek V4 基准测试显示 524k 上下文达到 85 token/秒;Ollama Ryzen APU 指南发布

    新的基准测试显示,DeepSeek V4 Flash 在双 RTX PRO 6000 Max-Q GPU 上利用 MTP 自我推测和 FP8 量化,实现了 524k 上下文窗口的每秒 85 token 的性能。此外,一份关于在 Ryzen APU 上使用 DeepSeek 模型设置 Ollama 的指南已发布,使没有独立显卡的用户也能更方便地进行本地大模型推理。修改后的 llama.cpp 存储库现已支持 DeepSeek V4 Pr…

  5. TOOL · CL_25188 ·

    Qwen 3.5 在切换到 llama.cpp 后引领本地 LLM 基准测试

    一篇技术博文详细介绍了从使用 Ollama 转为使用 llama.cpp 在本地运行大型语言模型的转变过程。作者发现,Ollama 虽然用户友好,但引入了一个可能导致基准测试结果偏差的抽象层。通过迁移到 llama.cpp,作者获得了对推理参数更精细的控制,从而能够进行更准确的基准测试和优化。这一改变使得 Qwen 3.5 在编码和智能体任务中成为表现最佳的模型。

  6. TOOL · CL_24527 ·

    BeeLlama.cpp、Qwen 3.6 和 iOS 应用为本地 LLM 加速

    本地 LLM 推理的新进展包括 BeeLlama.cpp,它是 llama.cpp 的一个分支,通过 DFlash 和 TurboQuant 等技术显著提升了性能并增加了多模态能力。另外,Qwen 3.6 35B 模型在消费级 GPU 上仅用 12GB VRAM 就展示了令人印象深刻的速度和上下文处理能力,在 128K 上下文下达到了每秒 80 个 token。此外,一个名为 Priv AI 的开源 iOS 应用已发布,允许用户通过 …

  7. TOOL · CL_23763 ·

    llama.cpp 在低 VRAM 设置上通过 -ncmoe 标志提升性能

    一位 Mastodon 用户分享了优化 llama.cpp 性能的技巧,llama.cpp 是一个流行的用于大型语言模型的推理引擎。关键建议是使用“-ncmoe”标志,据报道该标志对于提高配备 8GB 或 12GB VRAM 的设置的性能至关重要。

  8. RESEARCH · CL_23571 ·

    本地AI工具通过新的预测和解码技术提升LLM速度

    本地AI社区的最新更新正在提高推理速度,并为开放权重模型提供实际的基准测试。llama.cpp项目现已支持多令牌预测(MTP),该技术在消费级硬件上使Gemma 26B模型的速度提升了40%。另外,vLLM利用DFlash推测解码,使Gemma 4 26B模型在RTX 5090 GPU上达到了每秒600个令牌的速度。此外,Ollama社区发布了Qwen和DeepSeek编码模型在本地开发任务上的比较基准测试。

  9. COMMENTARY · CL_23153 ·

    本地AI模型因设置复杂和缺乏完善而落后于托管API

    Armin Ronacher 认为,尽管在本地运行AI模型方面取得了重大进展,但开发人员(尤其是编码代理)的用户体验仍然非常复杂。他强调了仅仅让模型可运行与让模型感觉完善和成品之间的差距,并以工具参数流式传输为例,说明了一个缺失的功能。Ronacher 指出,本地AI堆栈的碎片化性质,拥有众多的引擎和层,导致模型行为不一致和整体体验不佳。

  10. RESEARCH · CL_22337 ·

    AMD发布384GB MI350P卡;DeepMind扩展AlphaEvolve;Anthropic探究Claude推理

    AMD发布了MI350P推理卡,该卡拥有384GB内存,同时据报道llama.cpp速度提升了40%。与此同时,DeepMind正在将其AlphaEvolve项目扩展到基因组学领域。Anthropic也分享了关于其Claude模型内部推理过程的新发现。

  11. RESEARCH · CL_21552 ·

    Gemma 4 和 Kimi K2 模型在本地推理方面进行测试

    模型对决的第二回合包括来自 Google 的 Gemma 4 和来自 Moonshot AI 的 Kimi K2,重点关注本地推理能力。Gemma 4 是一个 27B 参数模型,已轻松集成到 Coder 平台。相比之下,Kimi K2 是一个拥有 256K 上下文窗口的 1 万亿参数模型,由于其巨大的 579 GB 体积,在本地推理方面带来了严峻挑战,需要使用 llama.cpp 进行内存映射 NVMe 卸载。

  12. TOOL · CL_21496 ·

    llama.cpp 新增 Sparse MoE 支持、Qwen3.6 GGUF 和用于本地 AI 的 WebWorld 模型

    llama.cpp 项目已更新,支持小米的 MiMo-V2.5 Sparse MoE 模型,允许在本地进行大型、参数高效模型的推理。此外,一个新发布的未经审查的 Qwen3.6 27B 模型现已提供 GGUF 格式以供本地使用,该模型具有改进的性能和更少的拒绝。基于 Qwen3 的 WebWorld 系列也已发布,提供多种参数大小,以促进能够与在线环境交互的本地 Web 代理的开发。

  13. TOOL · CL_19446 ·

    AMD EPYC CPU 在 LLM 和 TTS 推理工作负载上表现出竞争力

    Leaseweb 近期的一项分析对 AMD EPYC 9334 CPU 在大型语言模型 (LLM) 和文本转语音 (TTS) 推理工作负载上的性能进行了基准测试。研究表明,虽然 GPU 提供更高的吞吐量,但 CPU 可以是推理的经济高效且可预测的选择,尤其是在考虑延迟和每查询成本等因素时。基准测试突显了量化的影响,Q4 模型在 CPU 上的吞吐量明显优于 FP16,并且还与参考 Nvidia L4 GPU 比较了首次令牌时间 (TTF…

  14. TOOL · CL_19272 ·

    PFlash 在 128K 上下文下提供 10 倍更快的 LLM 预填充速度

    一个名为 PFlash 的新开源项目已被开发出来,旨在显著加快在本地运行的大型语言模型的预填充过程。这种优化至关重要,因为第一个 token 出现之前的初始延迟通常比生成速度本身更令人头疼。PFlash 声称,即使在处理 128,000 个 token 的上下文窗口时,其预填充操作的速度也比 llama.cpp 快 10 倍。

  15. TOOL · CL_17984 ·

    Google的Gemma 4增加了MTP以加快本地推理速度,VibeVoice已移植到C++,Ollama获得桌面层

    Google发布了Gemma 4,其中包含多令牌预测(MTP)功能,该功能允许模型同时预测多个令牌,从而显著加快本地推理速度。此外,使用ggml库开发了Microsoft VibeVoice模型的C++端口vibevoice.cpp,无需Python即可在消费级硬件上实现先进的语音到文本和文本到语音功能。还有一个独立项目正在进行中,旨在为Ollama创建一个离线的、低内存占用的桌面应用程序,以简化对技术水平较低用户的本地LLM部署。

  16. TOOL · CL_16456 ·

    SPEC CPU 2026 基准测试套件发布,增强了可移植性,不包含 AI 工作负载

    标准性能评估公司 (SPEC) 发布了其更新的 SPEC CPU 2026 基准测试套件,该套件包含 52 项测试,代码库比其前代产品大得多。新套件设计用于增强可移植性,能够运行从 Raspberry Pi 到高端服务器的各种硬件。值得注意的是,SPEC CPU 2026 专注于确定性结果和用户空间执行,但由于兼容性和可移植性方面的挑战,故意排除了 llama.cpp 和 whisper.cpp 等现代 AI 工作负载。

  17. RESEARCH · CL_15275 ·

    本地AI随着Qwen 3.6、llama.cpp和量化模型的进步

    作者分享了他们最近使用本地AI的经验,重点关注Qwen 3.6模型和llama.cpp框架。他们讨论了使用量化模型和实现工具调用的实际问题。此外,报告还涉及在Mac上观察到的内存行为以及将日常任务从云端AI令牌迁移到本地处理的过程。

  18. TOOL · CL_47578 ·

    SulphurAI发布Sulphur-2-base图像生成模型

    SulphurAI发布了其Sulphur-2-base模型,这是一款专为图像生成的扩散模型。该模型可在Hugging Face上获取,并提供了与各种流行库和工具集成的说明。这些工具包括Diffusers、llama-cpp-python、llama.cpp、Ollama、Unsloth Studio、Pi和Hermes Agent,便于在本地应用程序和云环境中使用。

  19. MEME · CL_10367 ·

    AI助手帮助调试Python,讨论Llama.cpp,并教智能插座播放摇篮曲

    一位用户分享了他们日常协助他人完成AI相关任务的活动,包括调试Python代码和回答有关llama.cpp项目的问题。他们还从事了创意AI应用,例如生成像素艺术和尝试为智能插座编程播放摇篮曲。用户幽默地提到他们还在等第一杯咖啡。

  20. RESEARCH · CL_13954 ·

    Liquid AI 发布 LFM2-24B-A2B,一款高效的 24B 参数 MoE 模型

    Liquid AI 发布了其 LFM2-24B-A2B 模型的早期检查点,这是一种稀疏专家混合(MoE)架构,总参数量为 240 亿,每个 token 激活参数量为 20 亿。该模型证明了 LFM2 架构能够有效地扩展到更大的规模,并且随着该系列的不断发展,在基准测试中观察到了持续的质量提升。LFM2-24B-A2B 设计为可容纳在 32GB RAM 中,旨在部署在云和边缘环境,包括消费级笔记本电脑和台式机。