SupraLabs 发布了 SupraVL-Nano-900k,这是一个完全从头开始构建的视觉语言模型。该模型拥有约 90 万个参数,在 Flickr8k 数据集上进行了训练,旨在成为理解图像到文本模型的透明且具有教育意义的蓝图。其架构包括一个 CNN 视觉编码器和一个 GPT-2 风格的 Transformer 解码器,所有组件均已记录并可访问。 AI
影响 为理解视觉语言模型架构和训练提供了透明、易于访问的蓝图。
排序理由 发布了一个新的、小规模的模型,重点是透明度和教育价值,而不是前沿性能。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →