PulseAugur
实时 20:31:16
Dansk(DA) RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!

Gemma 4 31B 模型上下文窗口扩展至 80k token

一位 Reddit 用户分享了一种显著增加 Gemma 4 31B 模型上下文窗口大小的方法,将其从 35,000 个 token 扩展到 80,000 个 token。这是通过修改 `llama.cpp` 配置实现的,特别是启用了 `--ctx-size 80000` 和其他相关参数,如 `--flash-attn on` 和 `GGML_CUDA_NO_PINNED=1`。该用户还指出,这种技术之前已被报道用于 Deepseek 模型,现在已成功应用于 Gemma。 AI

影响 为本地 LLM 部署启用更大的上下文窗口,可能提高需要大量信息回忆的任务的性能。

排序理由 用户驱动的现有模型参数修改以增强其功能,而非正式发布或研究论文。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Gemma 4 31B 模型上下文窗口扩展至 80k token

报道来源 [1]

  1. r/LocalLLaMA TIER_1 Dansk(DA) · /u/Defiant_Diet9085 ·

    RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1un6c4s/rtx5090_gemma431bitq6_kgguf_context_before_35k/"> <img alt="RTX5090, gemma-4-31B-it-Q6_K.gguf. Context: before - 35k, after - 80k!" src="https://external-preview.redd.it/MGeapHC9QI9slBEYy9lPkFxH_bYcjYu…