English(EN) Free 35B Multimodal LLM Server on Kaggle GPU — Accessible from Any OpenAI-Compatible Client

Kaggle GPU 免费设置支持 35B 多模态大语言模型 API

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 19:00

一位开发者创建了一种方法，可以在免费的 Kaggle GPU 上运行一个 350 亿参数的多模态大语言模型，克服了此类平台的典型限制。该解决方案使用 4 位量化的 Qwen3.6-35B-A3B 模型，托管在 Kaggle 的 T4 GPU 上，每次会话最多可运行 12 小时。它利用 llama.cpp 进行推理，并提供一个 OpenAI 兼容的 API。Cloudflare Quick Tunnel 提供了一个稳定的公共 URL，支持 token 流式传输，这一点优于其他免费隧道服务。 AI

影响使开发者能够在免费的云 GPU 上运行强大的大语言模型，绕过了昂贵的硬件或 API 费用。

排序理由该集群描述了一个在免费平台上运行现有开源大语言模型的技术设置和指南，而不是一个新的模型发布或重要的行业事件。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Tahsine · 2026-05-19 19:00

Kaggle GPU 上免费的 35B 多模态 LLM 服务器 — 可从任何 OpenAI 兼容客户端访问

<h2> The Problem </h2> <p>Running a large language model locally is expensive. A GPU with enough VRAM to run a 35B model costs several thousand dollars. Cloud APIs are convenient, but you pay per token, your data goes through someone else's servers, and you have no flexibility ov…

报道来源 [1]

Kaggle GPU 上免费的 35B 多模态 LLM 服务器 — 可从任何 OpenAI 兼容客户端访问

相关实体

相关话题