PulseAugur
实时 16:52:58
English(EN) Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

新方法在视听大语言模型中剪枝 60% 的令牌

研究人员开发了 AVEX-Prune,一种基于强化学习的新型方法,用于高效剪枝视听大语言模型中的令牌。该技术采用视听令牌交换策略,识别并保留最有价值的令牌,即使是那些接近决策边界的令牌。AVEX-Prune 在保持高字幕质量的同时,将令牌数量减少了 60%,并在 VILA 1.5-8BVideoLLaMA 2 等模型上展示了强大的性能。 AI

影响 降低了视听大语言模型的计算负载,可能实现更快、更高效的字幕生成。

排序理由 该集群包含一篇详细介绍多模态大语言模型新方法的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Zihan Meng, Dexiang Hong, Weidong Chen, Ziyu Zhou, Bo Hu, Zhendong Mao ·

    Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

    arXiv:2606.10533v1 Announce Type: new Abstract: Audio-visual captioning generates natural language descriptions from video and audio content. Multimodal LLMs have advanced this task, but both modalities contribute many tokens to the LLM input, where prefill self-attention scales …

  2. arXiv cs.CV TIER_1 English(EN) · Zhendong Mao ·

    Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

    Audio-visual captioning generates natural language descriptions from video and audio content. Multimodal LLMs have advanced this task, but both modalities contribute many tokens to the LLM input, where prefill self-attention scales quadratically. Existing token-pruning methods us…