PulseAugur
实时 12:33:43

Kwai-Keye 发布 Keye-VL-2.0-30B-A3B 以实现长视频理解

Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B,这是一款新的 300 亿参数多模态模型,专为高级视频理解和代理能力而设计。该模型在时间定位方面表现出色,在视频基准测试中可与 Gemini-3-Flash 相媲美甚至超越,并通过其 DSA-Native 长上下文架构支持长达一小时的视频上下文。Keye-VL-2.0-30B-A3B 还具有高效的推理和训练堆栈、用于可靠推理的稳健的训练后处理,以及用于代码执行和工具使用等任务的内置代理能力。 AI

影响 在其规模下,在视频理解基准测试中设定了新的 SOTA(最先进水平),可能影响未来的多模态代理开发。

排序理由 Kwai-Keye 发布了带有系统卡的 Frontier-lab 模型。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Kwai-Keye 发布 Keye-VL-2.0-30B-A3B 以实现长视频理解

报道来源 [1]

  1. r/LocalLLaMA TIER_1 (SW) · /u/jacek2023 ·

    Kwai-Keye/Keye-VL-2.0-30B-A3B-GGUF · Hugging Face

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u9176j/kwaikeyekeyevl2030ba3bgguf_hugging_face/"> <img alt="Kwai-Keye/Keye-VL-2.0-30B-A3B-GGUF · Hugging Face" src="https://external-preview.redd.it/S06mGO1g_9jOLqroAhmjWtxAAVuVcEfVYqLsQwRaljU.png?width=640&a…