Google 发布了其 Gemma 4 系列模型的新检查点,采用了量化感知训练(QAT)。此方法训练模型在权重被压缩到非常低的比特宽度(例如 4 位,甚至某些层的 2 位)时更加准确。目标是使这些模型能够在消费级硬件上高效运行,同时显著减小内存占用,例如 E2B 模型仅需约 1 GB。 AI
影响 通过显著减小模型大小和内存需求,实现高效的设备端 AI。
排序理由 Frontier-lab 模型发布,附带系统卡。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →