Google发布了Gemma 4 12B,这是一款轻量级的多模态AI模型,专为在消费级硬件上运行而设计,仅需16GB显存即可。该模型独特之处在于它在没有传统编码器的情况下处理图像和音频,从而减少了内存使用和延迟。对于图像,它使用一个拥有3500万参数的嵌入模块将像素数据转换为LLM可用的格式,而音频则通过直接标记40毫秒的片段来处理。 AI
影响 使得在消费级硬件上进行更高效的多模态AI处理成为可能,从而可能降低复杂AI应用的入门门槛。
排序理由 来自前沿实验室(Google DeepMind)的新模型发布,并提供了技术细节。[lever_c_demoted from frontier_release: ic=2 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →