Dansk(DA) RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!

Gemma 4 31B 模型上下文窗口扩展至 80k token

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-04 11:09

一位 Reddit 用户分享了一种显著增加 Gemma 4 31B 模型上下文窗口大小的方法，将其从 35,000 个 token 扩展到 80,000 个 token。这是通过修改 `llama.cpp` 配置实现的，特别是启用了 `--ctx-size 80000` 和其他相关参数，如 `--flash-attn on` 和 `GGML_CUDA_NO_PINNED=1`。该用户还指出，这种技术之前已被报道用于 Deepseek 模型，现在已成功应用于 Gemma。 AI

影响为本地 LLM 部署启用更大的上下文窗口，可能提高需要大量信息回忆的任务的性能。

排序理由用户驱动的现有模型参数修改以增强其功能，而非正式发布或研究论文。

在 r/LocalLLaMA 阅读 →

模型发布

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 Dansk(DA) · /u/Defiant_Diet9085 · 2026-07-04 11:09

RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1un6c4s/rtx5090_gemma431bitq6_kgguf_context_before_35k/"> <img alt="RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!" src="https://external-preview.redd.it/MGeapHC9QI9slBEYy9lPkFxH_bYcjYu…

报道来源 [1]

RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!

相关实体

相关话题