研究人员开发了新的自适应图像和视频分词方法,使模型能够根据视觉复杂性动态分配计算资源。AdaTok 是一种自预算离散一维分词器,它学习调整每张图像的 token 数量,平均而言,在显著更少的 token 数量下实现了具有竞争力的保真度。此外,一个用于自适应视频分词的新框架利用时间冗余掩码和潜在修复来实现高效、内容驱动的 token 分配,从而在推理时获得显著的加速。 AI
影响 这些自适应分词技术有望带来更高效的图像和视频处理 AI 模型,降低计算成本并提高推理速度。
排序理由 该集群包含两篇不同的研究论文,介绍了计算机视觉任务中自适应分词的新方法。
- ElasticTok-CV
- InfoTok
- Latent Inpainting Transformer (LIT)
- Sai Aditya Patkuri
- TokenBench
- AdaTok
- ImageNet-1K
- Latent Inpainting Transformer
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →