YOSE框架通过选择令牌来加速视频对象移除

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-01 04:00

研究人员开发了YOSE，一个旨在通过扩散Transformer（DiT）模型显著加速视频对象移除的新框架。YOSE通过自适应地只选择处理所需的核心令牌，而不是对整个视频帧进行计算，从而实现这种效率。这种感知掩码的加速使得推理时间可以随着掩码区域的大小进行缩放，在许多场景下可实现高达2.5倍的加速，同时保持与现有方法相当的视觉质量。 AI

影响通过提高基于DiT的方法的计算效率来加速视频对象移除任务。

排序理由学术论文，介绍了一种提高AI驱动视频处理效率的新方法。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Chenyang Wu, Lina Lei, Fan Li, Chun-Le Guo, Dehong Kong, Xinran Qin, Zhixin Wang, Ming-Ming Cheng, Chongyi Li · 2026-05-01 04:00

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

arXiv:2604.27322v1 Announce Type: new Abstract: Recent advances in Diffusion Transformer (DiT)-based video generation technologies have shown impressive results for video object removal. However, these methods still suffer from substantial inference latency. For instance, althoug…

报道来源 [1]

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

相关实体

相关话题