English(EN) Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

新方法在视听大语言模型中剪枝 60% 的令牌

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-09 08:04

研究人员开发了 AVEX-Prune，一种基于强化学习的新型方法，用于高效剪枝视听大语言模型中的令牌。该技术采用视听令牌交换策略，识别并保留最有价值的令牌，即使是那些接近决策边界的令牌。AVEX-Prune 在保持高字幕质量的同时，将令牌数量减少了 60%，并在 VILA 1.5-8B 和 VideoLLaMA 2 等模型上展示了强大的性能。 AI

影响降低了视听大语言模型的计算负载，可能实现更快、更高效的字幕生成。

排序理由该集群包含一篇详细介绍多模态大语言模型新方法的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Zihan Meng, Dexiang Hong, Weidong Chen, Ziyu Zhou, Bo Hu, Zhendong Mao · 2026-06-10 04:00

Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

arXiv:2606.10533v1 Announce Type: new Abstract: Audio-visual captioning generates natural language descriptions from video and audio content. Multimodal LLMs have advanced this task, but both modalities contribute many tokens to the LLM input, where prefill self-attention scales …
arXiv cs.CV TIER_1 English(EN) · Zhendong Mao · 2026-06-09 08:04

Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

Audio-visual captioning generates natural language descriptions from video and audio content. Multimodal LLMs have advanced this task, but both modalities contribute many tokens to the LLM input, where prefill self-attention scales quadratically. Existing token-pruning methods us…

报道来源 [2]

Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

Audio-Visual Exchange-Aware Token Pruning for Efficient Audio-Visual Captioning

相关话题