一项针对 llama.cpp 项目的拉取请求旨在通过限制 `llama_context` 的最大输出来优化 VRAM 使用。此更改基于之前的 PR,仅在必要时才保留 logits 空间,可能节省大量内存。开发者建议在 llama-context 中提供一个 API 来管理此保留,默认情况下为所有 token,但允许特定的服务器上下文设置。 AI
影响 此优化通过降低 VRAM 要求,可能允许在消费级硬件上运行更大的模型。
排序理由 这是一个开源项目的拉取请求,属于工具级别的更新。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →