研究人员开发了 AdaCodec,一种用于处理多模态大型语言模型 (MLLM) 中视频的新颖方法。AdaCodec 通过仅在场景发生显著变化时传输完整帧,否则仅编码帧间差异来解决视频中的时间冗余问题。这种方法显著减少了视觉 token 的预算并提高了处理速度,在多个基准测试中表现优于现有方法。 AI
影响 降低了视频 MLLM 的计算成本和延迟,从而能够更有效地处理长视频内容。
排序理由 该集群包含一篇详细介绍 MLLM 中视频处理新方法的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →