一位 Reddit 用户分享了一种显著增加 Gemma 4 31B 模型上下文窗口大小的方法,将其从 35,000 个 token 扩展到 80,000 个 token。这是通过修改 `llama.cpp` 配置实现的,特别是启用了 `--ctx-size 80000` 和其他相关参数,如 `--flash-attn on` 和 `GGML_CUDA_NO_PINNED=1`。该用户还指出,这种技术之前已被报道用于 Deepseek 模型,现在已成功应用于 Gemma。 AI
影响 为本地 LLM 部署启用更大的上下文窗口,可能提高需要大量信息回忆的任务的性能。
排序理由 用户驱动的现有模型参数修改以增强其功能,而非正式发布或研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →