PulseAugur
实时 14:34:47
English(EN) LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

LiteFrame 提升视频大语言模型帧扩展能力并降低延迟

研究人员开发了 LiteFrame,这是一种高效的视觉编码器,旨在提高视频大语言模型(Video LLMs)在处理扩展视频内容时的性能。该新框架使用压缩令牌蒸馏来训练一个紧凑的编码器,该编码器模仿大型模型的输出,从而降低了计算开销。与现有的 InternVL3-8B 等模型相比,LiteFrame 在处理八倍帧数的同时将延迟降低了 35%,并提高了视频理解基准的准确性。 AI

影响 使视频大语言模型能够更有效地处理更长的视频上下文,有可能加速需要扩展时间理解的任务的采用。

排序理由 该集群包含一篇详细介绍视频大语言模型新模型架构和训练框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Jihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong ·

    LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

    arXiv:2605.17260v2 Announce Type: replace Abstract: The fundamental challenge in scaling Video Large Language Models (Video LLMs) to long-form video lies in managing the explosion of visual-token context length. Existing strategies predominantly focus on "post-hoc" token reductio…