Kwai发布了Keye-VL-2.0-30B-A3B,这是一个开源的多模态基础模型,专为长视频理解和智能体智能而设计。该模型利用DeepSeek稀疏注意力处理高达256K的上下文,捕捉长达一小时视频中的关键帧和时间依赖性。它还结合了跨模态多教师策略内蒸馏,以增强各种场景下的多任务对齐和智能体协作。评估显示在视频理解和时间定位基准测试中取得了最先进的性能。 AI
影响 实现了先进的智能体协作和改进的长视频理解能力,可能加速多模态AI应用的发展。
排序理由 该集群包含一份技术报告,详细介绍了在arXiv上发布的新开源多模态基础模型。
在 Hugging Face Daily Papers 阅读 →
- Context-RL
- Cross-Modal Multi-Teacher On-Policy Distillation
- DeepSeek Sparse Attention
- GQA
- Keye-VL-2.0-30B-A3B
- Kwai
- LongVideoBench
- TimeLens
- Video-MME-v2
- Video-RL
- ViT-LM
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →