研究人员开发了新方法,在严格的计算和内存限制下提高流媒体视频理解 (SVU) 能力。ProtoKV 是一种新颖的内存系统,将旧视频内容聚合为摘要状态,在延迟查询场景下准确率提高高达 12.5 个百分点。另外,video-SALMONN-R$^3$ 使用重看机制来定位相关片段,以实现更高效的问题解答,在计算成本较低的情况下优于基础模型。CausalMem 提供了一种无需训练的方法来构建动态、固定预算的内存库,在 LLaVA-OneVision 和 Qwen2.5-VL 等 MLLM 上实现了显著的压缩率和准确率提升。 AI
影响 这些在高效视频理解方面的进展可以加速能够以更高的准确性和更低的计算开销处理和分析实时视频流的 AI 系统的开发和部署。
排序理由 多篇在 arXiv 上发表的研究论文,详细介绍了流媒体视频理解的新颖方法。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- ScienceCast
- video-SALMONN-R^3
- CausalMem
- LLaVA-OneVision
- ProtoKV
- Qwen2.5-VL
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →