English(EN) Adaptive Tokenisation Via Temporal Redundancy Masking And Latent Inpainting [R]

新方法利用潜在空间冗余自适应视频分词

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 09:32

研究人员开发了一种新颖的自适应视频分词方法，该方法根据视觉复杂度动态分配分词。该方法利用冻结视频分词器的潜在空间来识别和丢弃冗余的空间位置，从而实现内容驱动的压缩。然后使用潜在修复 Transformer (LIT) 来重建这些丢弃的位置，从而实现高效的推理管道，与现有方法相比速度大大加快。 AI

影响引入了一种更有效的视频分词方法，有望提高视频处理 AI 的压缩和推理速度。

排序理由这是一篇研究论文，详细介绍了一种新的自适应视频分词方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/chhaya_35 · 2026-06-11 09:32

Adaptive Tokenisation Via Temporal Redundancy Masking And Latent Inpainting [R]

<div class="md"><p>link - <a href="https://arxiv.org/abs/2606.06158">https://arxiv.org/abs/2606.06158</a> </p> <p>Abstract : Adaptive video tokenisation seeks to dynamically allocate token budgets based on the underlying visual complexity of a sequence. Current con…