Gemma-4 31B · PulseAugur

用户抨击免费版ChatGPT，称其比本地LLM“糟糕透顶”

用户对免费版ChatGPT表示非常不满，称其表现“糟糕透顶”。一位用户推测，为了节省成本，OpenAI可能在免费版中使用了低于200亿参数且启用了在线搜索的模型，尤其与本地LLM（如Gemma 4 31b）相比，后者质量要高得多。这种观点表明免费版ChatGPT的体验有所下降，促使用户寻求替代方案。

TOOL · CL_125490 · Jul 4 · 18:51

HexGrid Cloud 为开放权重模型提供定制化 LLM GPU 基准测试服务

HexGrid Cloud 提供在用户指定的 GPU 和配置上对开放权重 LLM 进行基准测试的服务。他们正在征集模型和硬件设置的建议，以测试其部署平台，重点关注适合单个 H200 GPU 内存的聊天/指令模型。测试结果将包括吞吐量、延迟和成本指标，并将与完整的配置细节一起公开分享，以确保可复现性。

TOOL · CL_125118 · Jul 4 · 11:09

Gemma 4 31B 模型上下文窗口扩展至 80k token

一位 Reddit 用户分享了一种显著增加 Gemma 4 31B 模型上下文窗口大小的方法，将其从 35,000 个 token 扩展到 80,000 个 token。这是通过修改 `llama.cpp` 配置实现的，特别是启用了 `--ctx-size 80000` 和其他相关参数，如 `--flash-attn on` 和 `GGML_CUDA_NO_PINNED=1`。该用户还指出，这种技术之前已被报道用于 Deepseek …

TOOL · CL_124529 · Jul 3 · 13:23

Gemma Avatar支持与Gemma 4 31B模型进行3D交互式聊天

一个名为Gemma Avatar的新项目允许用户通过3D化身与Gemma 4 31B大语言模型进行交互。该系统使用开源模型进行语音识别、文本转语音和化身动画，使化身能够通过声音和面部表情进行回应。Gemma 4 31B模型由Cerebras提供服务，有助于实现快速响应时间。

COMMENTARY · CL_120602 · Jul 1 · 15:18

Open Gemma-4-31B Model Outperforms ChatGPT Voice Mode on Cerebras Hardware

一位Reddit用户声称，在Cerebras硬件上运行的开源模型Gemma-4-31B，其性能优于ChatGPT的语音模式。该用户认为，开源模型最终将在推理能力方面占据主导地位。文中提供了一个Hugging Face空间的链接，可用于与该模型进行实时语音交互。

TOOL · CL_120598 · Jul 1 · 14:53

SWE-rebench 排行榜新增 Claude Opus 4.8、GLM-5.2、Gemini 3.5 Flash

SWE-rebench 排行榜已更新，新增了模型并改进了用户界面，使得在编码任务上比较 AI 性能更加容易。值得注意的新增模型包括 Claude Opus 4.8 xhigh、GLM-5.2 和 Gemini 3.5 Flash，以及多个 Qwen 和 DeepSeek 模型。此次更新还突出了本地和自托管模型的测试结果，鼓励社区就接下来要测试哪些模型提供意见。

TOOL · CL_118438 · Jun 30 · 12:35

Gemma-4 31B 模型在单个 RTX 6000 PRO GPU 上实现 1168 tokens/sec

一篇技术博客文章详细介绍了 Gemma-4 31B 模型在单个 RTX 6000 PRO Blackwell GPU 上使用 vLLM 运行时所达到的性能。该配置在大约 24 个并发请求下实现了约 1,168 tokens/sec 的峰值吞吐量，显示出显著的容量和余量。虽然中位数首次 token 时间保持在约 0.7 秒的快速水平，但在重负载下，尾部延迟（p99）增加到约 19 秒，突显了这是扩展的关键指标。

TOOL · CL_113866 · Jun 27 · 17:24

谷歌通过 Gemma 4 31B 黑客马拉松推广小型 AI 代码模型

据报道，谷歌正专注于小型 AI 模型用于软件工程任务，其 Gemma 4 31B 模型相关的黑客马拉松活动便是明证。尽管社区对“氛围编码”项目反应不一，但此举凸显了谷歌对小型模型 AI 辅助编码价值的信念。该公司正在庆祝这些模型创纪录的推理速度，这表明其正大力推动高效、本地化的开发者 AI 解决方案。

TOOL · CL_104989 · Jun 23 · 05:54

Stable Diffusion 用户分享 Gemma 4:31B 和 Ideogram 4 FP8 配置详情

一位 Reddit 用户分享了他们使用特定硬件和软件配置生成图像的经验。该配置包括一块 16GB 显存的 Nvidia RTX 5060 Ti 显卡，运行 Gemma 4:31B 模型和 Ideogram 4 FP8。用户报告称，在 2048x1024 分辨率下，使用 9 个步骤生成图像，每次生成大约需要 50 秒。

COMMENTARY · CL_104952 · Jun 23 · 05:01

Gemma 4 26b 模型在 r/LocalLLaMA 上被忽视，用户询问原因

r/LocalLLaMA 子版块的一名用户正在询问关于 Gemma 4 26b 模型被忽视和讨论不足的看法。他们注意到，像 Qwen 3.6 (27b 或 35b) 和 Gemma 4 31b 这样的模型被提及的频率更高，尽管 Gemma 4 26b 可能是他们个人助理和编码代理项目的有力竞争者。用户正在寻求这种明显缺乏兴趣的原因，想知道 Gemma 4 26b 模型是否存在任何重大的缺点或问题。

TOOL · CL_106654 · Jun 22 · 18:09

PostgreSQL 通过开源堆栈集成 AI，为生产环境做好准备

pgEdge 的 Mike Josephson 展示了如何将 AI 功能集成到 PostgreSQL 数据库中，重点关注从原型设计转向生产环境的挑战。演示涵盖了包括 MCP Server 和 RAG Serve 在内的开源堆栈，解决了企业控制、优化和语义缓存等问题。现场演示展示了使用 Ollama 和 Gemma 4 31B 的完全本地设置，确保了数据隐私。

TOOL · CL_103501 · Jun 22 · 08:18

Gemma 4 31B 模型在双 9060 XT GPU 上的性能受到质疑

Reddit r/LocalLLaMA 子版块的一名用户正在就 Gemma 4 31B Q6 模型在双 9060 XT 显卡上运行时遇到的性能问题寻求建议。用户报告称，推理速度稳定在每秒 8-9 个 token 左右，他们认为这比其他讨论中预期的要慢。用户认为当前速度尚可使用，但希望在可能忽略了任何优化的情况下找到改进的方法。

MEME · CL_103505 · Jun 22 · 02:23

AI 代理推荐用于 Python Web 开发

一位 r/LocalLLaMA 子版块的用户正在寻求 AI 代理设置的推荐，以协助在 PyCharm 中进行 Python Web 开发。他们拥有强大的硬件设置，配备 128GB RAM，能够运行 GPT-OSS 120b 和 Qwen3.5-122b 等大型模型，但发现由于需要进行广泛的错误测试，这个过程很繁琐。用户正在寻找一种更结构化的方法，可能涉及一个规划模型、一个执行模型和一个单独的测试模型，以简化开发过程。

RESEARCH · CL_116074 · Jun 21 · 17:24

小型大模型在关系抽取任务上可媲美前沿模型

一篇新的研究论文探讨了大语言模型（LLMs）在跨语言关系抽取方面的有效性，特别关注罗马尼亚语。研究发现，虽然像Gemma 4 31B这样的大模型在零样本和少样本设置下相比英语表现有所下降，但使用QLoRA进行微调可显著提高结果并缩小跨语言差距。研究还强调，像Qwen2.5-0.5B这样经过任务适配的小型模型，在特定的关系抽取任务上，尤其是在计算资源受限的情况下，可以媲美甚至超越GPT-5.4和Claude Sonnet 4.6等更大、…

TOOL · CL_102257 · Jun 21 · 01:58

RTX 6000 Pro 用户寻求最佳开源图像视觉模型

一位 Reddit 用户正在为可在 RTX 6000 Pro 显卡上运行的最佳开源图像视觉模型寻求推荐。他们希望对历史文档执行 OCR 和分类，并已成功使用 Gemma 4 31B，指出其性能优于 Qwen 3.6 模型中的视觉编码器。该用户正在询问除已测试过的模型之外的其他可用选项。

TOOL · CL_100128 · Jun 19 · 04:00

LLM 框架生成可验证的 PCB 示意图，无需单元测试

研究人员开发了 PCBSchemaGen，一个旨在使大型语言模型 (LLM) 能够为印刷电路板 (PCB) 示意图设计生成可验证代码的新型框架。与依赖单元测试的典型代码合成基准不同，PCBSchemaGen 使用从集成电路数据表中提取的特定领域模式和连续奖励验证器来确保正确性。这种方法甚至可以让像 Gemma-4-31B 这样的开放权重 31B 模型在 PCBBench 任务上达到 81.3% 的成功率，证明了其在缺乏传统测试预言机的…

COMMENTARY · CL_98271 · Jun 18 · 04:43

GLM-5.2因连贯性、速度和纯文本性能而受到赞誉

一位用户分享了他们使用新版GLM模型GLM-5.2的体验，指出该模型在长上下文连贯性方面表现出色，并且对早期对话要点的记忆力出奇地深刻。该模型被描述为具有独特的对话风格，不同于其他前沿模型，并且比前代GLM-5.1速度更快。虽然不具备原生视觉能力，但GLM-5.2在纯文本任务中被认为是一个强有力的竞争者，可与GPT-5.5等模型相媲美，并且在理解用户意图和“读懂言外之意”方面表现优于Gemini-3.1-Pro。

RESEARCH · CL_99566 · Jun 17 · 18:28

新的诊断工具可识别 LayerNorm Transformer 中的“死方向”

研究人员已识别出一种代数方法来检测 LayerNorm Transformer 中的“死方向”，这些方向是 Fisher 信息度量消失的参数空间方向。这项发表在 arXiv 上的新诊断技术仅使用 LayerNorm 尺度参数即可查明这些死方向，无需进行计算密集型的前向传播或特征值分解。该方法已在 14 个预训练 Transformer 上成功测试，准确预测了 LayerNorm 模型中的死方向，并正确识别了 RMSNorm 模型中死方…

SIGNIFICANT · CL_92554 · Jun 15 · 20:24

Google DeepMind 的 Gemma 4 模型现已在 Amazon Bedrock 上可用

Amazon Bedrock 现在提供由 Google DeepMind 开发的 Gemma 4 系列开放权重模型。这些模型专为各种部署场景的高效性能而设计，包括指令微调的变体，如 Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B。它们具有内置推理、原生函数调用以及文本和图像的多模态输入功能。Gemma 4 模型在 Apache 2.0 许可下提供，通过 AWS 的托管服务为用户提供数据保护和运营控制。

TOOL · CL_89006 · Jun 12 · 20:55

Qwen 和 Gemma 模型通过扩展测试时计算量得到提升

Reddit 的 r/LocalLLaMA 子版块上一位用户详细介绍了一种扩展测试时计算量的方法，以提高 Qwen-3.6-27B 和 Gemma-4-31B 模型的性能。该方法涉及显著增加基线模型的计算使用量，以改进代码优化和加速，目标是超越现有基准。所描述的脚手架利用了广泛的探索广度、迭代校正和假设检验，并设有解决方案池以防止局部最小值。然而，用户指出，由于处理长上下文窗口的限制，Qwen 和 Gemma 模型在后续迭代中都出现了性能回归。