llama-server · PulseAugur

用户偏好使用 llama.cpp 而非 Ollama 来执行本地 LLM

一位用户发现，虽然 Ollama 简化了运行本地大型语言模型的过程，但他们现在更喜欢直接使用 llama.cpp。用户认为 llama.cpp 更简单、更标准，并且更接近实际的模型执行过程。

Llama-server 错误丢弃 KV 缓存，修复恢复快速状态恢复

llama-server 中的一个错误导致它丢弃了恢复的 KV 缓存，强制进行完全的重新预填充，并显著增加了处理时间。该问题源于服务器的状态保存机制，该机制序列化了 token 数据，但没有序列化高效回滚所需的检查点元数据。成功的修复方法是将此检查点元数据持久化到侧边栏文件中，从而实现更快的状态恢复，并避免冗长的提示重新计算。

TOOL · CL_105758 · Jun 23 · 11:32

llama.cpp web UI 重新编译后失败，CLI 和服务器功能正常

用户在使用 llama-server web UI 时遇到提示无响应的问题，尽管命令行界面和服务器本身似乎运行正常。web UI 可以加载甚至加载模型，但卡在“处理中...”状态，不返回任何输出。用户还注意到他们的 mcp-servers 不再被识别。这个问题发生在用户在 Debian 13 上重新编译 llama.cpp 项目之后。

SIGNIFICANT · CL_102894 · Jun 19 · 14:01

Empero AI 发布 Qwythos-9B 推理模型，支持 1M 上下文窗口

empero-ai/Qwythos-9B-Claude-Mythos-5-1M 模型，一个 9B 参数的推理模型，已发布并在 Hugging Face 上可用。该模型基于 Qwen3.5-9B 构建，并使用 Claude Mythos 和 Fable traces 进行微调，通过 YaRN rope-scaling 技术实现了 100 万 token 的上下文窗口。提供了针对各种库和推理提供商的说明和集成指南，包括 llama-cpp…

TOOL · CL_98467 · Jun 18 · 09:36

llama-bench 针对闪存注意力和 GPU 层数进行了默认值更正

最近为 llama-bench 工具发布的 b9437 版本更正了与闪存注意力和 GPU 层数相关的默认设置。此前，该工具即使在兼容硬件上也将闪存注意力硬编码为关闭，并为 GPU 层数使用了旧的哨兵值。此次更新现在将闪存注意力默认设置为在 सक्षम 硬件（CUDA、Metal、Vulkan）上自动激活，并将 GPU 层数设置为 -1，与其他 llama.cpp 工具（如 llama-server 和 llama-cli）保持一致。此…

TOOL · CL_95108 · Jun 16 · 17:44

Deo 图像到提示工具增加了 LMStudio、Llama Server 支持

Deo 发布了 1.1 版本，增强了其作为图像到提示生成器的功能。此次更新引入了对 LMStudio 和 Llama Server 的实验性支持，同时通过更严格地遵循提示指南来提高提示的准确性和质量。新功能包括用于精确分割的套索工具、用于简化数据集标记的项目系统，以及用于边界框归一化和提示项完成的错误修复。

TOOL · CL_87794 · Jun 12 · 14:09

Unsloth 发布 0.1.461-beta 版本，修复 GGUF 视觉问题

Unsloth 发布了 0.1.461-beta 版本，其中包含对其 studio 环境内本地 GGUF 视觉功能的几项修复。这些更新旨在改进系统处理 GGUF 文件的方式，特别是在与 llama-server 交互以及管理变体目录中的伴随文件时。该版本还整合了来自 pre-commit 钩子的自动化代码修复。

COMMENTARY · CL_84667 · Jun 11 · 03:37

超参数搜索为推测性解码带来微小收益

Reddit的r/LocalLLaMA子版块的一位用户分享了他们对推测性解码进行超参数调整的经验，特别是在Strix Halo平台上使用Qwen3.6 27B模型和“draft-mtp”方法。尽管使用Optuna进行了广泛搜索，但用户发现与默认参数相比，每秒令牌数仅提高了6%。他们提供了实验中使用的Python脚本和最优命令行参数。

MEME · CL_76597 · Jun 7 · 21:09

llama-server 路由为所有 GPU 分配 CUDA 上下文，导致 OOM 错误

r/LocalLLaMA 子版块的一位用户在使用 llama-server 路由模式时遇到了一个问题：每个模型实例，即使被固定到特定 GPU，也会在所有可用 GPU 上分配 CUDA 上下文。这种行为会导致运行多个模型时出现内存不足 (OOM) 错误，特别是当一个大模型消耗了某些卡上的大部分显存时，导致较小的模型无法在其他 GPU 上初始化其上下文。用户正在寻求解决方案，例如特定的标志或配置，以防止在未使用的 GPU 上分配上下文，或…

TOOL · CL_76190 · Jun 7 · 14:16

开源工具通过 llama.cpp 简化本地 LLM 管理

两位开发者发布了开源工具，以简化 llama.cpp 的使用。llama.cpp 是一个流行的在本地运行大型语言模型的框架。其中一个工具 llama-launcher 提供了一个点击式图形界面来管理 llama-server 标志，使其对初学者来说易于使用。另一个工具 start-llama 为多个 llama-server 二进制文件提供命令行自定义，并支持每个模型覆盖，旨在实现轻松、单步执行。

COMMENTARY · CL_71889 · Jun 4 · 20:35

LocalLLaMA 用户寻求便携式语音接口以连接本地AI模型

一位来自 r/LocalLLaMA 子版块的用户正在寻找现有的便携式设备，这些设备可以连接到本地语言模型以进行语音到文本和文本到语音的交互。理想的设备应该是一个小型、无屏幕的小工具，通过Wi-Fi连接到家庭网络，让用户可以通过语音命令查询 Llama-server 等本地模型，并获得语音回复。虽然用户承认有可能使用 Raspberry Pi 构建这样的设备，但他们对现成的解决方案感兴趣，以实现一个简单、适合儿童且完全自托管的语音接口。

MEME · CL_67772 · Jun 2 · 22:10

Qwen3.6 模型在使用 OpenCode 时会在响应中途停止

Reddit 的 r/LocalLLaMA 论坛上一位用户在使用 OpenCode 和 llama-server 进行 AI 编码时遇到了 Qwen3.6-27B 模型的问题。该模型有时会在生成响应的中途停止，需要用户手动输入“continue”才能恢复。这种行为与服务器崩溃或超时不同，看起来像是输出被故意取消了。

TOOL · CL_66627 · Jun 2 · 11:34

LlamaStash 基准测试显示与 llama-server 相比无开销，优于 Ollama

LlamaStash，一个用于运行本地 LLM 的新包装器，已与 Ollama 和 LM Studio 进行了基准测试，展示了相当或更优的性能。与直接运行 llama-server 相比，该包装器没有增加可衡量的开销，甚至在其默认设置下提供了轻微的速度提升。Ollama 被发现速度明显较慢，尤其是在 RAG 预填充任务中，而 LM Studio 则表现出稳定性问题和首次 token 响应的明显延迟。

TOOL · CL_97166 · Jun 2 · 08:31

Qwen3.6-27B-MTP-pi-tune-GGUF 模型现已可用于各种 AI 工具

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF 模型现已可与各种流行的 AI 工具和库一起使用。提供了将其与 llama-cpp-python、llama.cpp、vLLM、Ollama 和 Unsloth Studio 集成的说明。该模型还可以与 LM Studio 和 Jan 等本地应用程序以及 Google Colab 和 Kaggle 等云平台一起使用。

TOOL · CL_61830 · May 31 · 19:21

Ollama v0.30.0-rc32 改进了多 GPU 支持和 embeddings API

Ollama 发布了候选版本 v0.30.0-rc32，其中包含对其 llama-server 功能的若干后续修复和改进。这些更新解决了 Windows 上多 GPU 支持的 ROCm 构建标志问题，改进了 AMD HIP 的版本检测，并确保了 embeddings API 的一致行为。此外，该版本还优化了显存受限情况下的批处理大小，修复了 Imagegen 中 v3 模型的加载错误，并增强了 embeddings 的模型重新加载过程。

MEME · CL_61115 · May 30 · 13:36

LocalLLaMA 用户寻求 llama-swap 并发请求修复方案

一位 r/LocalLLaMA 子版块的用户正在寻求关于配置 llama-swap 以处理单个模型并发请求的帮助。他们已成功设置了支持多 GPU 的 Qwen 3.6 35B A3B，并通过 llama-server 启用了并发，但 llama-swap 似乎将请求串行化处理，而不是并行处理。用户已尝试各种配置选项和问题跟踪器但未成功，他们特别希望避免运行多个 llama-cpp 实例以节省 GPU 内存。

TOOL · CL_59166 · May 29 · 07:41

用户寻求帮助优化 llama.cpp 服务器中的 MTP

一位 Reddit 用户正在寻求有关在 llama.cpp 服务器中实现“draft-mtp”（多轮提示）功能的帮助。他们下载了一个特定的模型 Qwen3.6-35B-A3B-MTP-GGUF，并尝试启用 MTP 标志来运行它。初步基准测试显示，启用 MTP 后令牌生成速度有所下降，用户正在询问可能的原因以及提高草稿接受率的方法。

TOOL · CL_56704 · May 28 · 08:31

本地 LLM 在质量上可媲美 Claude Haiku，但在 Sonnet 重写方面表现逊色

一篇技术博文对使用本地 LLM（特别是 Qwen 模型）运行 Claude Agent SDK 的性能与 Anthropic 的 Haiku 和 Sonnet 级别进行了基准测试。评估发现，在文档事实核查任务中，本地 35B 模型可以达到或超过 Haiku 级别的质量，同时延迟显著降低。然而，本地模型在复制 Sonnet 级别长文重写任务所需的引用格式方面存在困难，这需要一种混合方法，即对于这些特定操作仍需使用 Anthropic 的 API。

MEME · CL_48209 · May 24 · 19:26

LocalLLaMA 用户寻求将 MTP 集成到 llama-bench

r/LocalLLaMA 子版块的用户正在寻求解决方案，将 llama-bench 与 MTP 集成，因为适用于 llama-server 的标准方法似乎不起作用。核心问题似乎是兼容性，有人猜测 llama-bench 可能不支持投机解码。

COMMENTARY · CL_48201 · May 24 · 19:23

LocalLLaMA 用户讨论本地 LLM 的首选前端

r/LocalLLaMA 子版块的用户正在讨论他们与本地大型语言模型交互的首选前端。一位用户分享了他们使用 Vim 和自定义文本补全插件的非传统设置，同时也指出了 llama-server 存在的局限性。本次讨论旨在收集社区用于本地 LLM 部署和使用的工具和界面的见解。