PulseAugur
实时 15:01:04

AdaCodec 削减视频 MLLM 的 token 使用量,加速处理

研究人员开发了 AdaCodec,一种用于处理多模态大型语言模型 (MLLM) 中视频的新颖方法。AdaCodec 通过仅在场景发生显著变化时传输完整帧,否则仅编码帧间差异来解决视频中的时间冗余问题。这种方法显著减少了视觉 token 的预算并提高了处理速度,在多个基准测试中表现优于现有方法。 AI

影响 降低了视频 MLLM 的计算成本和延迟,从而能够更有效地处理长视频内容。

排序理由 该集群包含一篇详细介绍 MLLM 中视频处理新方法的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 Português(PT) · Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang ·

    AdaCodec: A Predictive Visual Code for Video MLLMs

    arXiv:2606.02569v1 Announce Type: cross Abstract: Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large language models (video MLLMs) usually encode each sampled frame as an independent RGB image, ca…

  2. arXiv cs.AI TIER_1 Português(PT) · Jiaqi Wang ·

    AdaCodec: A Predictive Visual Code for Video MLLMs

    Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large language models (video MLLMs) usually encode each sampled frame as an independent RGB image, causing visual tokens to repeat content already pres…