研究人员推出了一系列新的视觉-语言模型 Zamba2-VL,该模型利用了结合 Mamba2 状态空间层和 Transformer 块的混合架构。这些模型在各种视觉和语言任务上表现出色,可与 Molmo2 和 Qwen3-VL 等成熟的基于 Transformer 的模型相媲美。Zamba2-VL 的一个关键优势是其显著更快的首个 token 生成时间,这使其特别适合设备端和边缘部署。 AI
影响 为视觉-语言任务提供更快的推理速度,有可能实现更具响应性的设备端 AI 应用。
排序理由 该集群包含一份技术报告,详细介绍了在 arXiv 上发布的一套新的视觉-语言模型。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →