Google DeepMind发布了DiffusionGemma,这是一款开源LLM,它利用扩散架构进行文本生成,与传统的自回归模型相比,推理速度显著提高。该模型在单个H100 GPU上每秒可处理多达1000个token,且仅需18 GB VRAM,使其能够高效地在单GPU上部署。虽然它在速度上牺牲了一些准确性,但在代码填充和实时应用等任务中表现出色,并且还支持包括图像和视频在内的多模态输入。 AI
影响 加速推理速度并降低VRAM需求,可能催生新的实时应用和更广泛的单GPU部署。
排序理由 谷歌DeepMind发布新款开源扩散式LLM。 [lever_c_demoted from frontier_release: ic=1 ai=1.0]
- DiffusionGemma
- Gemma 4
- Google Cloud Vertex AI Model Garden
- Google DeepMind
- Hugging Face Transformers
- JAX
- NVIDIA NIM
- Stable Diffusion
- vLLM
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →