NemoStation 发布了 Marlin-2B,这是一款用于从视频中提取结构化信息的小型视频大模型 (VLM)。这个拥有 20 亿参数的模型在密集字幕生成和时间定位方面表现出色,在 CaReBench 和 TimeLens-Bench 等基准测试中,其表现优于同等规模的其他模型。Marlin-2B 针对部署进行了优化,可以在单个消费级 GPU 上运行,并提供对开发者友好的 API,以便轻松集成到应用程序中。 AI
影响 提供了一个高效、可部署的 VLM,用于结构化视频分析,可能降低视频处理应用程序的成本。
排序理由 新的开源模型发布,附带基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Trending Models 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →